Gather Platform 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Gather Platform 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Gather Platform 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Gather Platform 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Gather Platform 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 GPL
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 国产
投 递 者 gsh199449
适用人群 未知
收录时间 2016-12-20

软件简介

Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能

  • 根据配置的模板进行数据采集

  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

  • 自定义任务循环执行周期,一次定义,无人值守,自动采集

  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

  • 动态字段抽取与静态字段植入

  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

  • 多数据输出方式:Elasticsearch、JSON文本,Redis

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

爬虫模板配置页面

抓取样例数据效果

爬虫管理页面

循环任务监测

数据搜索与管理页面

网页信息查看

关联信息页

根据域名统计数据页面

 

 

具体部署方式参考项目主页README

百度云下载链接密码: v3jm

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (15)

加载中
可以再发一下链接吗?原文的链接失效了。谢谢!
2019/01/16 15:52
回复
举报
您好,这款软件很棒,可以吧链接发一下吗?页面给的链接失效了,谢谢
2018/05/10 10:58
回复
举报
打分: 还行
项目很棒,就是不喜欢用了太多jdk8的新特性,感觉可读性差了很多
2017/10/21 12:22
回复
举报
提示staticvalue.json不存在
2017/10/17 10:24
回复
举报
打分: 还行
该评论暂时无法显示,详情咨询 QQ 群:912889742
请问怎么使用?
2017/06/27 17:27
回复
举报
还有好多可以优化的地方,我这边已经做的差不多了,期待你的!
2017/06/20 17:24
回复
举报
打分: 推荐
不错
2017/05/17 15:54
回复
举报
只能说呵呵。 在中国根本没有什么遵守公约的网站可以给你爬取。遵守公约的向淘宝网,爬取他不亚于一场战争
2017/05/17 11:07
回复
举报
打分: 力荐
2017/02/17 17:50
回复
举报
更多评论
发表了资讯
2017/05/17 08:45

数据采集搜索平台 Gather Platform V0.6 发布

新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io/gather_platform_pages/ Github地址:https://github.com/gsh199449/spider 码云地址:https://git.oschina.net/gsh199449/spider Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任...

19
164
发表了资讯
2017/03/08 09:23

数据采集平台 Gather Platform V0.5 发布

Gather Platform V0.5 发布了,新功能: 新增定时任务循环,一次提交,无人值守,自动采集; 新增jetty支持,不再强制使用tomcat作为容器; 优化模板无法采集到数据时的提示; 修正去重策略的问题; 循环任务监控 循环任务定义 最新预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。

3
77
发表了资讯
2017/02/17 09:18

Gather Platform V0.4 新增任务批量管理

Gather Platform V0.4 发布了,新功能: 新增爬虫模板批量启动,在爬虫模板管理界面可以勾选多个爬虫批量启动。 修复BUG: 修正模态框堆叠问题; 修正更新webmagic版本带来的jar包冲突问题; 修正默认分类字段无效的问题; 修正导出数据内存溢出问题。 最新预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 源码下载:https://github.com/gsh199449/spider Gather Platform 数据抓取平台是一套基于...

3
35
发表了资讯
2017/01/09 11:17

Gather Platform 数据采集与分析平台 0.3 发布

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能 根据配置的模板进行数据采集 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间 动态字段抽取与静态字段植入 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词 含有相关文章推荐,文章中人物、地点之间的...

4
77
发表了资讯
2016/12/26 07:00

Gather Platform 0.2 发布,数据采集平台

此版本中新增功能如下: 数据导出功能,方便进行后期数据分析; 更新了爬虫模板配置系统,简化配置; 升级Webmagic到0.6.0版本; 修复了如下BUG: 修复了不使用ES时的空指针问题; 去除示例模板中的ID; Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台,可以实现不进行任何代码编写,即可完成对于一个网站的精准数据采集。具有以下功能 根据配置的模板进行数据采集 ...

5
54
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2018/08/07 16:24

什么是Scatter/Gather?

scatter/gather指的在多个缓冲区上实现一个简单的I/O操作,比如从通道中读取数据到多个缓冲区,或从多个缓冲区中写入数据到通道; scatter(分散):指的是从通道中读取数据分散到多个缓冲区Buffer的过程,该过程会将每个缓存区填满,直至通道中无数据或缓冲区没有空间; gather(聚集):指的是将多个缓冲区Buffer聚集起来写入到通道的过程,该过程类似于将多个缓冲区的内容连接起来写入通道; scatter/gather接口 如下是Scatt...

0
0
发表了博客
2015/12/08 15:24

四、Scatter/Gather

Java NIO开始支持scatter/gather,scatter/gather用于描述从Channel(译者注:Channel在中文经常翻译为通道)中读取或者写入到Channel的操作。 分散(scatter)从Channel中读取是指在读操作时将读取的数据写入多个buffer中。因此,Channel将从Channel中读取的数据“分散(scatter)”到多个Buffer中。 聚集(gather)写入Channel是指在写操作时将多个buffer的数据写入同一个Channel,因此,Channel 将多个Buffer中的数据“聚集(...

0
0
发表了博客
2013/04/09 17:32

scatter/gather I/O

scatter/gather方式是与block dma方式相对应的一种dma方式。 在dma传输数据的过程中,要求源物理地址和目标物理地址必须是连续的。但在有的计算机体系中,如IA,连续的存储器地址在物理上不一定是连续的,则dma传输要分成多次完成。 如果传输完一块物理连续的数据后发起一次中断,同时主机进行下一块物理连续的传输,则这种方式即为block dma方式。 scatter/gather方式则不同,它是用一个链表描述物理不连续的存储器,然后把链表...

2
0
发表于软件架构专区
2014/03/06 17:45

四, Scatter/Gather

Java NIO开始支持scatter/gather,scatter/gather用于描述从Channel(译者注:Channel在中文经常翻译为通道)中读取或者写入到Channel的操作。 分散(scatter)从Channel中读取是指在读操作时将读取的数据写入多个buffer中。因此,Channel将从Channel中读取的数据“分散(scatter)”到多个Buffer中。 聚集(gather)写入Channel是指在写操作时将多个buffer的数据写入同一个Channel,因此,Channel 将多个Buffer中的数据“聚集(...

0
0
发表了博客
2019/08/06 16:58

[转]浅谈scatter-gather DMA

在正文开始之前需要先搞明白以下几个问题: 1. 什么是DMA? DMA的中文名称叫做 直接内存访问,是一种不需要CPU参与,就能实现数据搬移的技术(从一个地址空间到另一个地址空间)。 2. DMA有什么用? 一定程度上解放CPU,对于实现 高效嵌入式系统 与 加速网络数据处理 有极其重要的作用。 3. DMA的实现简述 在实现DMA传输时,是由DMA控制器直接掌管总线,因此,存在着一个总线控制权转移问题。即DMA传输前,CPU要把总线控制权交给...

0
0
发表了博客
2012/08/15 14:25

Scatter-gather DMA 与 block DMA

Scatter-gather DMA方式是与block DMA方式相对应的一种DMA方式。 在DMA传输数据的过程中,要求源物理地址和目标物理地址必须是连续的。但是在某些计算机体系中,如IA架构,连续的存储器地址在物理上不一定是连续的,所以DMA传输要分成多次完成。 如果在传输完一块物理上连续的数据后引起一次中断,然后再由主机进行下一块物理上连续的数据传输,那么这种方式就为block DMA方式。Scatter-gather DMA方式则不同,它使用一个链表描...

0
0
发表了博客
2016/11/21 15:12

05. Java NIO Scatter / Gather

Java NIO发布时内置了对scatter / gather的支持。scatter / gather是通过通道读写数据的两个概念。 Scattering read指的是从通道读取的操作能把数据写入多个buffer,也就是sctters代表了数据从一个channel到多个buffer的过程。 gathering write则正好相反,表示的是从多个buffer把数据写入到一个channel中。 Scatter/gather在有些场景下会非常有用,比如需要处理多份分开传输的数据。举例来说,假设一个消息包含了header和body,...

0
0
发表于数据库专区
2018/03/12 16:45

GATHER_STATS_JOB encountered errors. ORA-20000

[size=130%]DBMS_STATS: GATHER_STATS_JOB encountered errors. ORA-20000: Unable to set values for table DBMS_TABCOMP_TEMP_UNCMP: does not exist or insufficient privileges [size=130%] [size=130%]In this Document SymptomsChangesCauseSolutionReferences Applies to: Oracle Database - Enterprise Edition - Version 11.2.0.2 and later Information in this document applies to any platform. Symptoms Alert lo...

0
0
发表了博客
2019/03/27 14:30

[转]tensorflow中的gather

原文链接 tensorflow中取下标的函数包括:tf.gather , tf.gather_nd 和 tf.batch_gather。 1.tf.gather(params,indices,validate_indices=None,name=None,axis=0) indices必须是一维张量 主要参数: params:被索引的张量 indices:一维索引张量 name:返回张量名称 返回值:通过indices获取params下标的张量。 例子: import tensorflow as tf tensor_a = tf.Variable([[1,2,3],[4,5,6],[7,8,9]]) tensor_b = tf.Variable([1,...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
15 评论
423 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部