python爬虫出现问题

BarryChang 发布于 2015/01/31 11:40
阅读 1K+
收藏 0
一开始工作还比较顺利,但是到后面出现大量的异常,主要是:
远程主机强迫关闭了一个现有的连接。
由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
请教一下各位大神,这是怎么回事,是因为我的爬虫写的有问题吗?可是为什么一开始没问题呢,是不是服务器暂时禁了我的IP?
加载中
0
左手想花开
左手想花开

一个很重要的事情,就是你不能让对方觉得你是机器人,线程不要太密集,至于ip的话,可以考虑从代码的角度不间断更换,生成一个iplist,list的大小要控制在最后一个被封掉后,第一个被封掉的处于启用状态;

不过,如果对方做了大量的防护工作,爬虫就困难了。我的爬虫目前一切顺利

eechen
eechen
安全宝有专门应对非法爬虫的防护。PHP单线程采集偶尔都要sleep等一会。
BarryChang
BarryChang
回复 @左手想花开 : 太感谢了,我去试一下哈
左手想花开
左手想花开
@BarryChang 首先说线程这件事,如果10条线程不间断访问一个网站,人家会不知道?肯定会知道的!我爬数据的时候,开了5个线程,每个10秒中执行一次,你可以考虑一下
BarryChang
BarryChang
嗷嗷,受教了,那么具体我需要做一些什么呢,我现在是开了10个线程,没有停顿。好像还有头部伪造,那个怎么做?
0
s
sdasfd34
请求头每次都换一个,短时间不要太频繁
BarryChang
BarryChang
多谢喽!我这个问题是因为爬国外网站需要设置代理导致的。不过依然多谢!
返回顶部
顶部