Gecco 1.2.0 发布,支持运行时抓取规则配置 - 开源中国社区
Gecco 1.2.0 发布,支持运行时抓取规则配置
xtuhcy 2016年07月05日

Gecco 1.2.0 发布,支持运行时抓取规则配置

xtuhcy xtuhcy 发布于2016年07月05日 收藏 37 评论 7

有免费的MySQL,为什么还要买? >>>  

Gecco 1.2.0 发布了,该版本改进内容包括:

1.HttpClientDownloader保证inputstream能重复使用,@shangjian提供修改思路

2.支持一个Before/AfterDownloader对应多个SpiderBean

3.Gecco的动态编程是新版本的核心功能,Gecco支持动态生成SpiderBean包括类,属性,注解。可以不需要预先定义SpiderBean即可完成抓取。详细情况可以参考http://my.oschina.net/u/2336761/blog/706041

通过动态特性,可以实现如下功能:

  1. 已经定义了ORM(如:hiberante)的bean,将注解动态的加载到ORM的bean中,可以很方便的将页面格式化后入库

  2. 很多类似的网站的抓取,SpiderBean都一样,只是提取元素的cssPath不一样,为了不构建很多重复的SpiderBean,可以考虑动态生成SpiderBean

  3. 通过配置的方式抓取页面,通过后台管理系统、配置文件等配置抓取规则,动态的将配置规则转换成SpiderBean

  4. 利用动态SpiderBean可以构建可视化爬虫,利用可视化工具构建抓取规则,将规则动态转换为SpiderBean

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Gecco 1.2.0 发布,支持运行时抓取规则配置
分享
评论(7)
最新评论
0

引用来自“黑暗圣堂武士”的评论

先简单介绍一下是这软件干嘛的。

引用来自“xtuhcy”的评论

http://www.geccocrawler.com/

引用来自“廖汉斌”的评论

评论错了
0

引用来自“黑暗圣堂武士”的评论

先简单介绍一下是这软件干嘛的。

引用来自“xtuhcy”的评论

http://www.geccocrawler.com/
评论错了
0

引用来自“黑暗圣堂武士”的评论

先简单介绍一下是这软件干嘛的。
http://www.geccocrawler.com/
0
先简单介绍一下是这软件干嘛的。
0
顶!
0
学习了!!
0
又更新了,顶
顶部