PHP如何实现多进程爬虫业务

吃益达的人 发布于 2017/09/18 16:10
阅读 783
收藏 0
PHP

开源之夏第三届火热来袭,高校学生参与赢万元奖金!>>>

大概的需求是 需要用PHP实现爬虫 之前的做法是 开很多台机器来爬

我想可否用一台机器来实现 比如 nohup 多挂起几个进程 来跑是否可行

如果一台机器开多个进程跑 瓶颈是哪?

代码就是curl一下 某个站点

加载中
0
mickelfeng
mickelfeng

可行。几个进程无所谓啦,瓶颈是 抓取频率。吧会不会被ban。使用代理

吃益达的人
吃益达的人
抛开ip的问题 可能我没太说明白 比如 一台机器开五个进程跑 和 开五台机器 每台跑一个 区别在哪 跟cpu 或者带宽之类的有关系吗
0
一箭落旄头

   我用了四个进程  二个抓url  二个扒页面  已经跑了快一个星期了    无论是进程和几台机器只要用同一个数据库 都避免不了并发吧 ,主要控制好对数据库的读取。

0
项羽大大
项羽大大

可以试试swool扩展看看

0
何吕
何吕

https://github.com/kiddyuchina/Beanbun  直接给你一个现成的,基于workerman实现的

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
返回顶部
顶部