易用的轻量化的网络爬虫 GECCO

MIT
Java
跨平台
2016-02-19
xtuhcy

Gecco是什么

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时Gecco基于十分开放的MIT开源协议,无论你是使用者还是希望共同完善Gecco的开发者,欢迎pull request。如果你喜欢这款爬虫框架请star 或者 fork!

参考手册

主要特征

  •  简单易用,使用jquery风格的选择器抽取元素

  •  支持页面中的异步ajax请求

  •  支持页面中的javascript变量抽取

  •  利用Redis实现分布式抓取,参考gecco-redis

  •  支持结合Spring开发业务逻辑,参考gecco-spring

  •  支持htmlunit扩展,参考gecco-htmlunit

  •  支持插件扩展机制

  •  支持下载时UserAgent随机选取

  •  支持下载代理服务器随机选取

加载中

评论(21)

xtuhcy
xtuhcy 软件作者
java语言中难得的简单易用爬虫框架
赵伟伟
赵伟伟
有好多东西是可以改进的,比如 (1) 响应200的,添加断言是否success (2) href 使用了click 属性目前只能在线程内处理,可以放到全局的schedule或者可配置,在实际使用中一般配置一个第一页的url和一个下一页的href进行click (3) 下载和断言异常的处理 (4) URL末尾是否有斜杠的匹配问题 (5) 注解不太全 ,比如RequestUrl ResponseBody (6) Dynamic 的list属性实际生成的是数组
进击de山寨王
进击de山寨王
Xpath什么时候支持啊?cssPath加下标方式不太爽
蚂蚁搬五岳
蚂蚁搬五岳
借鉴学习 #GECCO#
k
kyzgzky
里面的Guava.jar版本貌似有问题,报java.lang.NoSuchMethodError: com.google.common.base.Objects.firstNonNull 。更换最新的jar包解决了 #GECCO#
huanghaibin-dev
huanghaibin-dev
支持支持 #GECCO#
xtuhcy
xtuhcy 软件作者
gecco 1.1.3 版本发布 #GECCO#
xtuhcy
xtuhcy 软件作者
gecco 1.1.2 版本发布 #GECCO#
xtuhcy
xtuhcy 软件作者
老鑫
感觉和python的scrapy差不多呀 #GECCO#

Gecco 1.2.5 发布,易用的轻量化爬虫

Gecco 1.2.5 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 更新内容: @Gecco注解支持多个matchUrl,一个spiderbean可以同时匹配多种形式的url jd地址...

2016/11/03 10:48

Gecco 1.2.4 发布,易用的轻量化爬虫

Gecco 1.2.4 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理...

2016/09/12 11:18

Gecco 1.2.3 发布,易用的轻量化爬虫

Gecco 1.2.3 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理...

2016/08/19 09:49

Gecco 1.2.2 发布,首个支持动态加载的java爬虫框架

Gecco 1.2.2 发布了,DynamicGecco实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 DynamicGecco的目的是在不定义SpiderBean的情况下实现爬取规则的运行时配置。其实现原理是采...

2016/07/18 10:31

Gecco 1.2.0 发布,支持运行时抓取规则配置

Gecco 1.2.0 发布了,该版本改进内容包括: 1.HttpClientDownloader保证inputstream能重复使用,@shangjian提供修改思路 2.支持一个Before/AfterDownloader对应多个SpiderBean 3.Gecco的动态...

2016/07/05 11:47

Gecco 1.1.3 发布,易用的轻量化爬虫

Gecco 1.1.3 发布了,该版本改进内容包括: 处理jsonp的时候,分号问题修复 2.支持自定义下载重试次数定义,GeccoEngine.retry(count) 3.HttpClientDownloader支持response的Set Cookie自动存...

2016/05/31 09:59

Gecco 1.1.2 发布,易用的轻量化爬虫

Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本 2.jsonp判断方式修改 3.@Html支持outer 4.修改jd的demo 5.相同matchUrl 给出警告 6.修改UniqueSpiderSch...

2016/05/16 09:44

Gecco 1.1.1 发布,易用的轻量化爬虫

Gecco 1.1.1 发布了。该版本主要做了如下修改: 1.@Gecco不填写matchUrl时,支持匹配所有格式url的通用抓取 2.默认使用UniqueSpiderScheduler队列管理避免重复HttpRequest的抓取 3.修改table...

2016/05/09 11:13

Gecco 1.1.0 稳定版发布,易用的轻量化爬虫

gecco 1.1.0稳定版发布了。 1.1.0版本主要做了如下修改: 1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理 2.HttpClientDownloader支持类似12306网站非信任...

2016/04/26 09:30

gecco 1.0.9 发布,易用的轻量化爬虫

gecco 1.0.9 发布了。 1.0.9版本主要做了如下修改: 1、@Image注解增加图片自动下载到本地的方法@Image(download="d:/gecco/jd/img") 2、GeccoEngine改为线程方式,通过start()支持非阻塞方式...

2016/04/13 09:53

没有更多内容

加载失败,请刷新页面

暂无问答

java爬虫gecco监控来了,不再裸奔

#java爬虫gecco监控来了,不再裸奔 ##爬虫为什么要监控 [gecco](https://github.com/xtuhcy/gecco)是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有: ...

2016/03/21 10:42
3.7K
3
Gecco框架典型案例—闲逛APP

Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如...

2016/05/31 10:02
348
2
教您使用java爬虫gecco抓取JD全部商品信息(一)

如果对gecco还没有了解可以参看一下gecco的github首页,https://github.com/xtuhcy/gecco。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。 要抓取JD网站的全部商品信息,我们...

2016/02/24 12:39
15K
8
教您使用DynamicGecco抓取JD全部商品信息

##关于gecco爬虫框架 如果对gecco还没有了解可以参看一下gecco的[github首页](https://github.com/xtuhcy/gecco)。gecco爬虫十分的简单易用。之前有一篇文章《[教您使用java爬虫gecco抓取JD商...

2016/07/18 11:22
589
2
教您使用java爬虫gecco抓取JD全部商品信息(三)

商品列表页抓取完成后,需要抓取每个商品的信息信息了

2016/02/26 11:16
3.5K
1
GECCO(易用的轻量化的网络爬虫)

现在开发应用已经离不开爬虫,网络信息浩如烟海,对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件,python语言编写的爬虫框架scrapy得到了较为广泛的...

2016/01/05 17:34
771
1
Gecco爬虫框架的线程和队列模型

爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文...

2016/06/08 10:22
310
0
教您使用java爬虫gecco抓取JD全部商品信息(二)

上一篇进行了JD所有商品的分类信息的抓取,这一篇讲解商品列表信息的抓取

2016/02/25 10:55
3.6K
3
java爬虫gecco支持htmlunit

java爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为j...

2016/03/07 10:30
2.6K
1
java爬虫gecco的稳定性测试

最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。...

2016/03/28 11:42
410
1

没有更多内容

加载失败,请刷新页面

返回顶部
顶部