sina 微博 爬虫

xutaoding 发布于 2015/01/09 17:30
阅读 1K+
收藏 0
关于sina微博登陆后的数据抓取(sina api除外), 需要抓微博粉丝数,weiboshu, 以及谈论某一个关键字数,但是当模拟登陆成功后,连续的大批量抓取(假如连续抓取10000条数据),新浪微博就会出现验证码,让你无法继续抓取,使用IP代理抓取或轮询抓取也不太可取(个人意见), 毕竟如何搞到批量可用的ip, 并且用这些ip都能抓到东西,确实一个难点。如有兴趣的网友可与我谈论啊,并且求教,谢谢。
加载中
0
旧城的骁珖
旧城的骁珖
这话我怎么那么别扭呢..
x
xutaoding
不是别扭, 其实就是一句话,连续在新浪微博上抓取数据,会失败,您有什么高招呢?请赐教
0
有明丶
有明丶
留点时间间隔,我抓就没出现这种问题。
x
xutaoding
码友,间隔了几秒钟, 连续抓取就出现了这样的情况。您是什么时候抓新浪微微博的呢?可否将您的抓取策略和经验赐教一二呢?拜谢
0
x
xiatiandefeng
这里有现成写好的新浪微博爬虫[按微博昵称爬取],可以直接使用,有兴趣的童鞋可以试下
http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=139

返回顶部
顶部