webmagic爬取的链接如何去重呢

wymoso 发布于 2016/08/12 09:41
阅读 1K+
收藏 0

@黄亿华 你好,想跟你请教个问题:我要对一个新闻网站进行定时爬取,昨天得到的链接今天怎么避免重复爬取到呢……

加载中
0
浪漫怕丑仔
浪漫怕丑仔
通过Scheduler管理URL
w
wymoso
呃…这个去重是说队列中的url吧,如果我想和一周前的采集过的url进行比较去重呢?
返回顶部
顶部