如何设计爬虫代理机制?

happylifelx 发布于 2014/09/27 12:02
阅读 2K+
收藏 1
目标是抓取几十个网站,但其中只有少数网站的某些域名下会有反爬机制,试着用代理访问,相比不用代理访问速度明显较慢,而且IP质量有的很不好,觉得要是本来不用代理的也加代理的话也没必要,但是想让自己的爬虫不被封,还尽可能的有效率,有什么好方法吗,大家都用什么机制?IP质量难以保证怎么弄啊
加载中
0
Strutsz
Strutsz
 最好的抓取算法就是随机算法,你永远不知道他会抓那个页面
h
happylifelx
你说的随机是随机选取ip吗?还是随机有的设置代理有的不设置呢
0
Feng_Yu
Feng_Yu
随机轮询代理
Feng_Yu
Feng_Yu
回复 @happylifelx : 可以先用普通算法爬取网站,遇到反爬网站可以通过抓异常的方式,选择代理尝试爬取。可以自己维护一套代理库,某些网站提供每日代理列表,可以自己写算法获取每日的代理列表,就不用自己维护一套代理库了
h
happylifelx
可是大部分是没有反爬的,能不能只针对有反爬的网站设置代理,如果隔一段时间我的ip都不好用了,即使轮询效果也不好怎么办
0
佰川
佰川
curl 随机更换 IP , 在抓取百度的排名时已经用到,有效解决了频繁访问出现验证的问题。
0
s
sosozzzx

推荐使用下神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。 

简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 

0
p
panyuntech

老实说, 只能想办法找高质量的http 代理了, 其实最简单的办法就是使用手机、家庭电脑作为代理服务器,可参考https://my.oschina.net/u/4075932/blog/3008073

返回顶部
顶部