聚合全网技术文章,根据你的阅读喜好进行个性推荐
开源之夏第三届火热来袭,高校学生参与赢万元奖金!>>>
大概的需求是 需要用PHP实现爬虫 之前的做法是 开很多台机器来爬
我想可否用一台机器来实现 比如 nohup 多挂起几个进程 来跑是否可行
如果一台机器开多个进程跑 瓶颈是哪?
代码就是curl一下 某个站点
可行。几个进程无所谓啦,瓶颈是 抓取频率。吧会不会被ban。使用代理
我用了四个进程 二个抓url 二个扒页面 已经跑了快一个星期了 无论是进程和几台机器只要用同一个数据库 都避免不了并发吧 ,主要控制好对数据库的读取。
https://github.com/kiddyuchina/Beanbun 直接给你一个现成的,基于workerman实现的
可行。几个进程无所谓啦,瓶颈是 抓取频率。吧会不会被ban。使用代理
可以试试swool扩展看看
https://github.com/kiddyuchina/Beanbun 直接给你一个现成的,基于workerman实现的