gecco 1.1.0稳定版发布了。
1.1.0版本主要做了如下修改:
1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理
2.HttpClientDownloader支持类似12306网站非信任ssl证书
3.JsonBean支持嵌套解析
4.修复部分网站302无法跳转的bug
5.优化debug日志输出
gecco是一款易用的轻量化网络爬虫。十分的容易上手。
主要特征:
简单易用,使用jquery风格的选择器抽取元素
2.支持页面中的异步ajax请求
3.支持页面中的javascript变量抽取
4.利用Redis实现分布式抓取,参考gecco-redis
5.支持结合Spring开发业务逻辑,参考gecco-spring
6.支持htmlunit扩展,参考gecco-htmlunit
7.支持插件扩展机制
8.支持下载时UserAgent随机选取
9.支持下载代理服务器随机选取
引用来自“Skiychan”的评论
能不能把用什么语言也给标出来啊~引用来自“干爷爷”的评论
我想说真的很好用,我用这玩意爬了安居客上的楼盘数据引用来自“_dedecms”的评论
安居客数据都是怕的房天下的引用来自“干爷爷”的评论
我想说真的很好用,我用这玩意爬了安居客上的楼盘数据引用来自“王爵”的评论
不错,关注中。引用来自“milin”的评论
支持js执行后的页面吗?引用来自“Rewuba_net”的评论
支持 增量爬取吗?引用来自“干爷爷”的评论
我想说真的很好用,我用这玩意爬了安居客上的楼盘数据