gecco 1.0.7 发布,轻量化网络爬虫

xtuhcy
 xtuhcy
发布于 2016年03月21日
收藏 102

gecco 1.0.7 发布了。gecco是一种轻量化网络爬虫,同时也是一款拥有很好扩展性的框架。

主要特征:
1、简单易用,使用jquery的css selector风格抽取元素
2、支持页面中的异步ajax请求
3、支持页面中的javascript变量抽取
4、利用Redis实现分布式抓取
5、支持下载时UserAgent随机选取
6、支持下载代理服务器随机选取
7、支持结合Spring开发业务逻辑
8、支持htmlunit扩展

增加jmx监控,监控指标包括:
1、爬虫基本信息
2、下载监控
3、内容抽取监控

详细信息点这里

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:gecco 1.0.7 发布,轻量化网络爬虫
加载中

最新评论(15

xtuhcy
xtuhcy

引用来自“蜂鸟J”的评论

用jsoup提取解析html,超好用,试试吧
gecco就是用的jsoup进行内容抽取的,gecco框架进一步简化了使用过程
xtuhcy
xtuhcy

引用来自“Loveni”的评论

好用否?
简单易用~
蜂鸟J
蜂鸟J
用jsoup提取解析html,超好用,试试吧
Loveni
Loveni
好用否?
xtuhcy
xtuhcy
nlp自然语言处理通常是爬虫的后续处理,也就是gecco里的pipeline部分,gecco的pipeline使用管道过滤器模式,可以先通过npl处理,然后入库。将npl处理和入库处理的逻辑分离
专业写BUG的程序员
专业写BUG的程序员
红麦的正文提取也很强大
探索人生
探索人生

引用来自“笨二十一”的评论

正文提取 现在腾讯开放平台有接口了 效果还不错

引用来自“探索人生”的评论

我们的是通用的提取接口 腾讯的好像不是吧

引用来自“笨二十一”的评论

腾讯的也是 http://www.qcloud.com/product/nlp.html 这个里面带正文提取,笑果不错
嗯 还不错,应该仅次于我们的 哈哈
笨二十一
笨二十一

引用来自“笨二十一”的评论

正文提取 现在腾讯开放平台有接口了 效果还不错

引用来自“探索人生”的评论

我们的是通用的提取接口 腾讯的好像不是吧
腾讯的也是 http://www.qcloud.com/product/nlp.html 这个里面带正文提取,笑果不错
探索人生
探索人生

引用来自“笨二十一”的评论

正文提取 现在腾讯开放平台有接口了 效果还不错
我们的是通用的提取接口 腾讯的好像不是吧
l
lukangihh
122340
返回顶部
顶部