PHP采集巨量数据的问题

帖子列表 发布于 2013/01/05 21:13
阅读 717
收藏 1
PHP
比如有个站的信息要采集下来,100000页,每页100条信息,每条信息对应的页面内容要采集下来,如果遍历采集,肯定极慢无比,页面刷新刷个几小时还没完成。所以请教各位高手,这种情况用什么解决方案?
加载中
0
上水若寒
上水若寒
写php脚本 以 cli 模式在系统后台运行。
0
sniperBlank
sniperBlank
用队列。大数据的处理肯定会比较慢的
帖子列表
帖子列表
还是要靠刷新和等待吗?队列是什么技术?
0
TYi
TYi

楼主做的应该是类似于爬虫工具;

- 程序实现可以参考PHP手册的 PCNTL

- 你爬取那么多次页面,对方网站肯定会有防爬虫或者反爬虫策略;

帖子列表
帖子列表
我要抓到对方网站应该没有反爬虫策略,然后,PCNTL这个东西,光看PHP手册很困惑啊,应该怎么学呢?
0
hkshadow
hkshadow
httpsqs來解決,當請求第一業的同時往對列里插入一條請求數據,然後用腳本不停的取對列,對取得的信息再處理,循環操作。
0
s
sosozzzx

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

返回顶部
顶部