网络爬虫 goodcrawler

Apache
Java
跨平台
2013-07-12
shenbaise

goodcrawler(GC) 网络爬虫

GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。

GC基于httpclient、htmlunit、jsoup、elasticsearch。

GC的特点:

1、具有DSL特性的模板。

2、分布式、可扩展。

3、辛亏有htmlunit,它能较好地支持javascript。

5、合理的插件设计,方便功能扩充。

6、天然继承es,本身即是一个完整的搜索引擎。

下载独立运行版

加载中

评论(1)

数据抓取
数据抓取
寻找一个小团队做新闻客户端数据抓取,感兴趣可微信联系zx_wander

暂无资讯

暂无问答

goodcrawler的使用说明

goodcrawler是我13年8月份放在github上的开源项目。2014年1月9日发布了第一个standalone版。standalone可独立运行,无需做任何配置。 这篇文章简单的介绍一下GC(goodcrawler)的使用。...

2014/01/09 18:18
1K
2
44款Java 网络爬虫开源软件

极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速...

2018/06/04 14:36
132
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部