关于从新浪微博中获取数据的问题

明月照大江 发布于 2012/11/14 02:49
阅读 9K+
收藏 4

最近接到一个任务,要求从新浪微博中获取一些信息

具体要求如下:

以某一个政府机构的微博为基点,找出这个微博的 关注数,粉丝数,微博数
1.找出该政府微博关注的微博,并找出该被关注微博的关注数,粉丝数,微博数,创建时间,名称等信息。
2.找出该政府微博的所有粉丝,并找出该政府微博的每一个粉丝的关注数,粉丝数,微博数,创建时间,名称等信息
3.找出该政府微博发过的所有微博。

目前考虑的方案是两种 一个是 网络爬虫 一个是通过新浪微博的开放平台。
但是经过调查和思考两种方式存在一下困难。
1.通过网络爬虫,但是我不熟悉网络爬虫,我的理解是访问我想去的微博获取相关的信息需要一个cookie才能够达到目的,而且据说新浪微博是有限制网络爬虫的功能的。
2.通过开放平台,根据开放平台的文档是可以通过调用相应的api获取到我想要的数据的,但是对一个测试的应用api的访问总数是有限制的,新浪微博开放平台明确说明了对每一个IP都有一个api的使用总量,不能超出这个上线否则就要进黑名单。

最后,基于以上的考虑和测试,我实在想不出更好的方案了,所以我想在这里问问大家,有没有谁做过类似的事情,是否成功,成功的时候使用了哪种方式。或者我的这个任务是不可能完成的,大家以往在尝试做这件事情的时候遇到了哪些不可解决的困难请告诉我。

万分感谢诸位!

加载中
0
红薯
红薯
第二种方案,然后找新浪微博要更高级的权限,无非就是付费的问题
0
枫爱若雪
枫爱若雪

记得新浪有接口,具体楼主自己看看

http://open.weibo.com/wiki/API%E6%96%87%E6%A1%A3_V2

0
蟋蟀哥哥
蟋蟀哥哥
这个项目可否外包?我朋友在做这个…已经有大量数据和成熟方案
0
明月照大江
明月照大江

引用来自“红薯”的答案

第二种方案,然后找新浪微博要更高级的权限,无非就是付费的问题
我只是一个在校生,这个任务是老师给的收集数据也是为了给别的院写论文,几乎就是白干的,我们都没钱~
0
明月照大江
明月照大江

引用来自“蟋蟀哥哥”的答案

这个项目可否外包?我朋友在做这个…已经有大量数据和成熟方案
我自己都没钱~包不出去了,现在只能自己想办法了~
蟋蟀哥哥
蟋蟀哥哥
我那朋友是采集和api一起使用.用了10台服务器集群来抓数据的.ip有限制的话可以用adsl来拨号.封了就重新拨号..这样来采集但是速度慢..朋友都采集一年多了
0
明月照大江
明月照大江

引用来自“枫爱若雪”的答案

记得新浪有接口,具体楼主自己看看

http://open.weibo.com/wiki/API%E6%96%87%E6%A1%A3_V2

是这个API但是有调用的限制~
0
ccymbeyond
ccymbeyond
这个问题你解决了吗?
0
firstboy
firstboy
靠,来得太迟了,这个问题不要太easy呀,我直接用curl等相关工具就可以搞定让程序来抓取,至于你说的指定微博帐号抓取Ta发的微博和粉丝数新浪都直接外面抓取,带上Cookie就是了。测试了,就是新浪的高级搜索有验证码限制,指定帐号微博是没有限制的,当然以后新浪有调整就不好说了。
没鼻子的小熊
没鼻子的小熊
能把你的代码给我看一下吗,最近做关于新浪微博数据爬取的毕设,就快要验收了还没啥头绪,真心希望大神能给点帮助
0
工东

引用来自“明月照大江”的答案

引用来自“红薯”的答案

第二种方案,然后找新浪微博要更高级的权限,无非就是付费的问题
我只是一个在校生,这个任务是老师给的收集数据也是为了给别的院写论文,几乎就是白干的,我们都没钱~
请问楼主的问题怎样解决的,我现在也需要得到多个用户的粉丝数、评论数、转发数等数据。但是对新浪API一窍不通,不知道怎么用,特请教。谢谢!
DZ_City
DZ_City
回复 @明月照大江 : 我创建应用后,获取到了Access Token,调用接口后返回了一些内容,但我想获得自己关注的用户信息,能告知一下怎样筛选吗?
明月照大江
明月照大江
开放平台的api的调用在开放平台那里,如果是刚开始要稍微学习一下,教程的话不是和清晰,网上的攻略也是比较老的了,我以前用的是人人网的开放API,那里的教程比较全,所以新浪的上手比较快,目前的抓取还是api+自己写的爬虫的方案
返回顶部
顶部