网站内网页互相循环链接造成nutch无限循环抓取

VictorHu 发布于 2015/09/11 13:18
阅读 391
收藏 0

@杨尚川 你好,想跟你请教个问题:

我们用nutch2.3抓取一个测试网站。网站里面有4个页面:A,B,C,D。其中A->B->C->D->A。nutch抓取的时候就造成了无限循环抓取。我在网上也没找到相关资料,所以来请教下您。

加载中
0
Altman
Altman
这是一个爬虫最基本的,记录已经抓过的链接,肯定有这个功能的,你在看看文档
Altman
Altman
回复 @VictorHu : 没研究过nutch,你可以修改下源码
VictorHu
VictorHu
原来我也这认为nutch不存在这种情况,但我用几个简单页面测试的时候偶然发现这个问题。debug了一下,发现每次dbupdate的时候都会初始化原来记录的fetchtime为当前时间,这就造成了在generate的时候,重新分配batchid,重新fetch,就成了无限循环。
0
杨尚川
杨尚川
可以看一下我之前写的文章:http://my.oschina.net/apdplat/blog/208716
返回顶部
顶部