webMagic 重复爬去链接问题

shenjianox 发布于 2014/06/09 16:02
阅读 284
收藏 0

@黄亿华 你好,想跟你请教个问题:

new FileCacheQueueScheduler("D:\\workSpace_truck\\webMagicCatch\\csdn")

这里我制定了链接路径,我在住方法测试之后,去查看缓存里查看一爬取的内容

http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html
http://blog.sina.com.cn/s/blog_58ae76e80100to5q.html
http://blog.sina.com.cn/s/blog_58ae76e80100s2mo.html
http://blog.sina.com.cn/s/blog_58ae76e80100qln9.html
http://blog.sina.com.cn/s/blog_58ae76e80100pt0m.html

已存在,等在执行的时候依然爬去这些链接,控制它输出的内容还有这些链接包含的内容

这是怎么回事呀 麻烦指导一下啊


加载中
返回顶部
顶部