通过php来模拟多线程网络爬虫,怎样防止同一网站的多次重复采集

12345_ 发布于 2014/08/06 10:49
阅读 211
收藏 0
PHP

通过php来模拟多线程网络爬虫,怎样防止同一网站的多次重复采集。

输入多个要采集的网址,多次调用php来进行爬取数据,怎样才能防止同一个站点下的内容只爬取一次。

加载中
0
Maxwell1987
Maxwell1987
爬过的记录下来,爬之前先查找一下有没有爬过。
Maxwell1987
Maxwell1987
回复 @唐传洋 : 消息队列不是干这个的,你找个key/value的缓存就行,redis之类的。或者用内存关系数据库,sqlite之类的,都还可以
12345_
12345_
重点就是怎样去记录,要有大并发,可能要爬百万到千万的记录。考虑过放到数据库中,但感觉速度会很慢。准备用消息队列。
返回顶部
顶部