如何对爬取对象取重?

鱼中鱼 发布于 2014/11/11 11:41
阅读 410
收藏 0

如何对爬取对象取重?

每次启动爬虫,都会从目标页上抓取链接,怎样保证每次只抓取最新的链接,也就是不要重复抓取呢?

加载中
0
johnchou
johnchou
去重有很多方式,具体看你所爬链接数量,多的话可以试试bloom filter。
0
hibegin
hibegin
抓取过的网页放在一个集合里面。 有新的链接的时候看看那个集合里面有灭有。 有了就不抓取萨
0
kslr
kslr

错别字。

Bloom filter,Redis Set

0
开源中国首席煤工
开源中国首席煤工

数据量不大的话,弄个md5或者uuid即可。

返回顶部
顶部