如何控制爬虫的爬取速度?

_小宋 发布于 2014/03/28 15:00
阅读 1K+
收藏 0
如题。

因为在爬取一些网站的信息时,如果爬取过快会被封IP。所以请问大家是如何控制爬虫速度的,能够不被封IP同时还能尽可能快的爬取?

谢谢!
加载中
0
0
游客
游客
你自己控制啊,广度优先。30秒抓一次。
0
0
郭幻程
郭幻程
SLEEP(30000)
0
F_L_F
F_L_F
准备一堆代理
0
西门飞
西门飞
控制频率 、换ip
0
数据工厂V
数据工厂V
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
0
大数据专家

你可以用用前嗅的ForeSpider数据采集软件,操作简单不说,采集的数据很全,而且支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等技术,一般网页上的公开数据基本都可以采到。如果网站比较复杂,软件里有自带的爬虫脚本语言,通过写脚本,就能完全采集数据了。

爬取速度更是可以自己调节线程数越大越快,除去这些,还可以设置每天的采集上限,或者定时开采,定时停止。

返回顶部
顶部