开源爬虫框架 WebPasser

MIT
Java
跨平台
2016-06-08
hxt168

WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。

1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。
2.提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。
3.提供抓取各阶段的触发器、拦截器,方便扩展。

控制台部分截图:

使用:

1.查看目标网站的页面特征,在xml中配置所需抓取内容。
2.在控制台添加一个抓取任务,将xml配置提交。
3.对单个网页测试或整个任务执行测试。
4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
5.设置定时任务。

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

3
回答
采集一个简单的页面,我配置的分页一直不对,只能采集第一页
hxt168 的回答 2016/07/15 14:28
最佳答案
这个网站分页是js生成的,要用自定义处理链(项目要再git pull下)。 这个分页的处理链简单写了下: public class CustomDemoRule implements DecideRule{ public List<Object> handle(Rule rule, List<...

没有更多内容

加载失败,请刷新页面

没有更多内容

使用webpasser爬虫框架对抓取解析后的数据持久化

使用webpasser爬虫框架对抓取解析后的数据持久化

2016/07/14 15:29
59
0
使用webpasser抓取某笑话网站整站内容

使用webpasser框架抓取某一笑话网站整站内容。webpasser是一款可配置的爬虫框架,内置页面解析引擎,可快速配置出一个爬虫任务。配置方式将页面解析和数据存储分离,如果目标网站改版,也可以...

2016/07/02 10:18
116
0
webpasser爬虫框架自定义处理链工具

webpasser爬虫框架的页面解析引擎提供一系列的处理链工具,如jsoup、xpath、正则表达式、截取、替换等。在任务xml配置中只需引用这些处理链工具,即可对抓取的数据进行解析。当然,如果目标页...

2016/07/14 16:09
108
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部