Web爬虫框架 Smart and Simple Web Crawler

未知
Java
跨平台
2009-11-30
红薯

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open

下载地址:

https://crawler.dev.java.net/servlets/ProjectDocumentList?folderID=11459&expandFolder=11459&folderID=10340

加载中

评论(0)

暂无评论

暂无资讯

3
回答
请教一下关于如何抓取新浪微博手机版的数据

最近,由于实验设计需要,需要大量抓取微博中的数据, 在采取了一些网友的建议下,我试着写了一个Java程序配合HTMLparser去抓取新浪微博手机版页面的...

2012/03/18 18:34

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无博客

返回顶部
顶部