Gather Platform 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Gather Platform 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 GPL
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开发厂商
地区 国产
提 交 者 gsh199449
适用人群 未知
收录时间 2016-12-20

软件简介

Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能

  • 根据配置的模板进行数据采集

  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

  • 自定义任务循环执行周期,一次定义,无人值守,自动采集

  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

  • 动态字段抽取与静态字段植入

  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

  • 多数据输出方式:Elasticsearch、JSON文本,Redis

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

爬虫模板配置页面

抓取样例数据效果

爬虫管理页面

循环任务监测

数据搜索与管理页面

网页信息查看

关联信息页

根据域名统计数据页面

 

 

具体部署方式参考项目主页README

百度云下载链接密码: v3jm

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (15)

加载中
可以再发一下链接吗?原文的链接失效了。谢谢!
2019/01/16 15:52
回复
举报
您好,这款软件很棒,可以吧链接发一下吗?页面给的链接失效了,谢谢
2018/05/10 10:58
回复
举报
打分: 还行
项目很棒,就是不喜欢用了太多jdk8的新特性,感觉可读性差了很多
2017/10/21 12:22
回复
举报
提示staticvalue.json不存在
2017/10/17 10:24
回复
举报
打分: 还行
关注一下
2017/08/05 21:44
回复
举报
请问怎么使用?
2017/06/27 17:27
回复
举报
还有好多可以优化的地方,我这边已经做的差不多了,期待你的!
2017/06/20 17:24
回复
举报
打分: 推荐
不错
2017/05/17 15:54
回复
举报
只能说呵呵。 在中国根本没有什么遵守公约的网站可以给你爬取。遵守公约的向淘宝网,爬取他不亚于一场战争
2017/05/17 11:07
回复
举报
打分: 力荐
2017/02/17 17:50
回复
举报
更多评论
发表了资讯
2017/05/17 08:45

数据采集搜索平台 Gather Platform V0.6 发布

新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io/gather_platform_pages/ Github地址:https://github.com/gsh199449/spider 码云地址:https://git.oschi...

19
164
发表了资讯
2017/03/08 09:23

数据采集平台 Gather Platform V0.5 发布

Gather Platform V0.5 发布了,新功能: 新增定时任务循环,一次提交,无人值守,自动采集; 新增jetty支持,不再强制使用tomcat作为容器; 优化模板无法采集到数据时的提示; 修正去重策略的问题; 循环任务监控 循环任务定义 最新预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。...

3
77
发表了资讯
2017/02/17 09:18

Gather Platform V0.4 新增任务批量管理

Gather Platform V0.4 发布了,新功能: 新增爬虫模板批量启动,在爬虫模板管理界面可以勾选多个爬虫批量启动。 修复BUG: 修正模态框堆叠问题; 修正更新webmagic版本带来的jar包冲突问题; 修正默认分类字段无效的问题; 修正导出数据内存溢出问题。 最新预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4Io...

3
35
发表了资讯
2017/01/09 11:17

Gather Platform 数据采集与分析平台 0.3 发布

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能 根据配置的模板进行数据采集 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间 动态字段抽取与静态字段植入 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据 ...

4
77
发表了资讯
2016/12/26 07:00

Gather Platform 0.2 发布,数据采集平台

此版本中新增功能如下: 数据导出功能,方便进行后期数据分析; 更新了爬虫模板配置系统,简化配置; 升级Webmagic到0.6.0版本; 修复了如下BUG: 修复了不使用ES时的空指针问题; 去除示例模板中的ID; Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台,可以...

5
54
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2018/08/07 16:24

什么是Scatter/Gather?

scatter/gather指的在多个缓冲区上实现一个简单的I/O操作,比如从通道中读取数据到多个缓冲区,或从多个缓冲区中写入数据到通道; scatter(分散):指的是从通道中读取数据分散到多个缓冲区Buffer的过程,该过程会将每个缓存区填满,直至通道中无数据或缓冲区没有空间; gather(聚集):指的是将多个缓冲区Buffer聚集起...

0
0
发表了博客
2015/12/08 15:24

四、Scatter/Gather

catter / gather经常用于需要将传输的数据分开处理的场合,

0
0
发表了博客
2013/04/09 17:32

scatter/gather I/O

scatter/gather方式是与block dma方式相对应的一种dma方式。 在dma传输数据的过程中,要求源物理地址和目标物理地址必须是连续的。但在有的计算机体系中,如IA,连续的存储器地址在物理上不一定是连续的,则dma传输要分成多次完成。 如果传输完一块物理连续的数据后发起一次中断,同时主机进行下一块物理连续的传输,则这...

2
0
发表于AI & 大数据专区
2014/03/06 17:45

四, Scatter/Gather

Java NIO开始支持scatter/gather,scatter/gather用于描述从Channel(译者注:Channel在中文经常翻译为通道)中读取或者写入到Channel的操作。 分散(scatter)从Channel中读取是指在读操作时将读取的数据写入多个buffer中。因此,Channel将从Channel中读取的数据“分散(scatter)”到多个Buffer中。 聚集(gather)写入...

0
0
发表了博客
2019/08/06 16:58

[转]浅谈scatter-gather DMA

在正文开始之前需要先搞明白以下几个问题: 1. 什么是DMA? DMA的中文名称叫做 直接内存访问,是一种不需要CPU参与,就能实现数据搬移的技术(从一个地址空间到另一个地址空间)。 2. DMA有什么用? 一定程度上解放CPU,对于实现 高效嵌入式系统 与 加速网络数据处理 有极其重要的作用。 3. DMA的实现简述 在实现DMA传输...

0
0
发表了博客
2012/08/15 14:25

Scatter-gather DMA 与 block DMA

Scatter-gather DMA方式是与block DMA方式相对应的一种DMA方式。 在DMA传输数据的过程中,要求源物理地址和目标物理地址必须是连续的。但是在某些计算机体系中,如IA架构,连续的存储器地址在物理上不一定是连续的,所以DMA传输要分成多次完成。 如果在传输完一块物理上连续的数据后引起一次中断,然后再由主机进行下一块...

0
0
发表了博客
2016/11/21 15:12

05. Java NIO Scatter / Gather

Java NIO发布时内置了对scatter / gather的支持。scatter / gather是通过通道读写数据的两个概念。 Scattering read指的是从通道读取的操作能把数据写入多个buffer,也就是sctters代表了数据从一个channel到多个buffer的过程。 gathering write则正好相反,表示的是从多个buffer把数据写入到一个channel中。 Scatter/ga...

0
0
发表于数据库专区
2018/03/12 16:45

GATHER_STATS_JOB encountered errors. ORA-20000

[size=130%]DBMS_STATS: GATHER_STATS_JOB encountered errors. ORA-20000: Unable to set values for table DBMS_TABCOMP_TEMP_UNCMP: does not exist or insufficient privileges [size=130%] [size=130%]In this Document SymptomsChangesCauseSolutionReferences Applies to: Oracle Database - Enterprise Edition ...

0
0
发表了博客
2019/03/27 14:30

[转]tensorflow中的gather

原文链接 tensorflow中取下标的函数包括:tf.gather , tf.gather_nd 和 tf.batch_gather。 1.tf.gather(params,indices,validate_indices=None,name=None,axis=0) indices必须是一维张量 主要参数: params:被索引的张量 indices:一维索引张量 name:返回张量名称 返回值:通过indices获取params下标的张量。 例子: ...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
15 评论
420 收藏
分享
返回顶部
顶部