数据采集平台 Gather Platform

GPL
跨平台
2016-12-20
gsh199449

Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能

  • 根据配置的模板进行数据采集

  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

  • 自定义任务循环执行周期,一次定义,无人值守,自动采集

  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

  • 动态字段抽取与静态字段植入

  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

  • 多数据输出方式:Elasticsearch、JSON文本,Redis

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

爬虫模板配置页面

抓取样例数据效果

爬虫管理页面

循环任务监测

数据搜索与管理页面

网页信息查看

关联信息页

根据域名统计数据页面

 

 

具体部署方式参考项目主页README

百度云下载链接密码: v3jm

的码云指数为
超过 的项目
加载中

评论(15)

s
shmily_h
可以再发一下链接吗?原文的链接失效了。谢谢!
huahongcui
huahongcui
您好,这款软件很棒,可以吧链接发一下吗?页面给的链接失效了,谢谢
z
zhaocs
项目很棒,就是不喜欢用了太多jdk8的新特性,感觉可读性差了很多
谁是大流氓O
谁是大流氓O
提示staticvalue.json不存在
小龙在线
小龙在线
关注一下
single-dog
single-dog
请问怎么使用?
节奏
还有好多可以优化的地方,我这边已经做的差不多了,期待你的!
w
watermooon
不错
fir01
fir01
只能说呵呵。 在中国根本没有什么遵守公约的网站可以给你爬取。遵守公约的向淘宝网,爬取他不亚于一场战争
蓝天白云_123

数据采集搜索平台 Gather Platform V0.6 发布

新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https:/...

2017/05/17 08:42

数据采集平台 Gather Platform V0.5 发布

Gather Platform V0.5 发布了,新功能: 新增定时任务循环,一次提交,无人值守,自动采集; 新增jetty支持,不再强制使用tomcat作为容器; 优化模板无法采集到数据时的提示; 修正去重策略的...

2017/03/08 09:23

Gather Platform V0.4 新增任务批量管理

Gather Platform V0.4 发布了,新功能: 新增爬虫模板批量启动,在爬虫模板管理界面可以勾选多个爬虫批量启动。 修复BUG: 修正模态框堆叠问题; 修正更新webmagic版本带来的jar包冲突问题;...

2017/02/17 09:18

Gather Platform 数据采集与分析平台 0.3 发布

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能 根据配置的模板进行数据采集 在不配置采集模板的情况下自动检测网...

2017/01/09 11:16

Gather Platform 0.2 发布,数据采集平台

此版本中新增功能如下: 数据导出功能,方便进行后期数据分析; 更新了爬虫模板配置系统,简化配置; 升级Webmagic到0.6.0版本; 修复了如下BUG: 修复了不使用ES时的空指针问题; 去除示例模...

2016/12/25 22:16

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

GATHER_STATS_JOB encountered errors. ORA-20000

[size=130%]DBMS_STATS: GATHER_STATS_JOB encountered errors. ORA-20000: Unable to set values for table DBMS_TABCOMP_TEMP_UNCMP: does not exist or insufficient privileges [size=13...

2018/03/12 16:45
47
0
php采集远程文章简单类

<?php /** * 采集类 * @author Milkcy QQ:9877633 * @copyright (C) 2012-2015 TCCMS.COM * @lastmodify 2012-07-10 14:00 */ class gather { public $pagestring = ''; private $db; functi...

2015/08/25 11:18
8
0
python利用utf-8编码判断中文英文字符(转)

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作。 #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具:...

2015/08/18 11:43
710
0
php读取局域网共享文件

示例代码: <?php $filename = "//192.168.1.31/pic_gather/figure/1.png"; $size = filesize($filename); echo $size; ?> 上述代码实现的是,读取公用电脑下共享的pic_gather/figure路径...

2013/08/14 14:06
314
0
Turtle渲染器之最终聚集

导言 Final Gather(最终聚集)不需要光子即可算出间接光,可以理解它是将场景中所有物体都当作光源的算法.它一般被用于产生真实均匀的面积光线。 在这个场景中,我们准备了10个NURBS球体和一个...

2016/04/05 16:37
13
1
oracle用dbms_stats包收集统计信息

dbms_stats包里最常用的就是如下4个存储过程: gather_table_stats:用于收集目标表、目标表的列和目标表上的索引的统计信息。 gather_index_stats:用于收集指定索引的统计信息。 gather_sch...

2018/09/06 17:07
21
0
oracle用dbms_stats包收集统计信息

dbms_stats包里最常用的就是如下4个存储过程: gather_table_stats:用于收集目标表、目标表的列和目标表上的索引的统计信息。 gather_index_stats:用于收集指定索引的统计信息。 gather_sch...

2018/12/01 16:32
10
0
oracle用dbms_stats包收集统计信息

dbms_stats包里最常用的就是如下4个存储过程: gather_table_stats:用于收集目标表、目标表的列和目标表上的索引的统计信息。 gather_index_stats:用于收集指定索引的统计信息。 gather_sch...

2018/05/16 14:44
35
0
四、Scatter/Gather

catter / gather经常用于需要将传输的数据分开处理的场合,

2015/12/08 15:24
18
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部