爬虫如何检测对面BAN的红线

吐槽的达达仔 发布于 2016/04/08 15:33
阅读 195
收藏 0

@刘地 你好,想跟你请教个问题:

大神你好,想请教你一下,爬虫爬取的频率如何检测比较好。

能够让爬虫最大限度地爬取,又不至于被封。


请问有没有这样的一个方法论呢?谢谢。

加载中
0
刘地
刘地

应该没有吧?不同网站各有不同的爬虫检测和处理策略。

我的建议还是通过不同的匿名代理分别爬取,同一条线路最好只有一个爬虫,爬取间隔不少于1min。最好伪装一下agent头,保管一下cookie。不同线路的爬虫,其agent头和cookie分别保存。

然后很多网站为了防爬虫会用js来设置cookie,这个时候除非你针对每个网站设计过关策略,就只能用phantom.js或者selenium这种了。如果是google那种会给你出12306的过关题那种的……反正是没有一个必然成功的策略的。

我也是业余的,主业是生物,只知道这么多了。

ps:有的网站会有robot.txt,你可以下载根目录的该文件看看,按照该文件设置的agent头在访问指定的允许页面时,是不会被屏蔽爬虫的。

吐槽的达达仔
吐槽的达达仔
好吧,谢谢你的回答。。
返回顶部
顶部