想做一个简单的采集分析系统,但是数据之间的关系比较复杂,怎么来存储数据更适合?

就是我啊 发布于 2013/12/22 21:51
阅读 868
收藏 0


    嗯,简单的讲就是采集新浪微博的数据咯,但是各个微博数据之间的关系比较复杂,一个用户有很多条微博,一条微博的微博ID关联到所有与它相关的赞,转发,和评论,还有与微博相关的相册,本身@的人 ,然后每一条有关联到与之相关的用户,同时也包括@的人 ,等等等等。。。

    然后我想要的就是,数据有一定量的时候,可以从任意条微博ID找到所有与其相关的人,包括赞转发评论,如果可以的话,可以做到两级,就是间接相关的人。A发布的微博B,C评论了,@了D,D的粉丝是E和F。也就是说A找到BCDEF,大概是这样子,当然为了更好的分析,需要保留一些其他信息,比如微博内容,发布时间,评论时间,来源等等等等

    这是一个“想做一个简单的采集分析系统”吗?

    一开始想想,MySQL?但是这么复杂的关系,我应该怎么建立这个模型。然后有微微了解到Mongodb好像可以以JSON的方式存储?这样是不是比较适合,插入和检索的时候,什么的

    


加载中
0
张金富
张金富
社交网站的数据库可以试一下图引擎数据库,比如neo4j
就是我啊
就是我啊
回复 @张金富 : 3ks~
张金富
张金富
回复 @就是我啊 : http://docs.neo4j.org.cn/ Neo4j简体中文手册 v1.8
张金富
张金富
回复 @就是我啊 : neo4j主要用于社交网站
就是我啊
就是我啊
好像不错的样子,我了解了解~
0
yuyuyuyu
yuyuyuyu
还是用关系数据库吧,好好设计模型
就是我啊
就是我啊
唉...这一块没学好,各种范式什么的都怎么明白
0
宅男小何
宅男小何
k-v db比较好
就是我啊
就是我啊
MongoDB好用些还是有其他的没?
0
明月照大江
明月照大江
就用关系数据库,然后上sql查~
就是我啊
就是我啊
就是怕关系复杂了自己乱,而且sql语句也繁杂,,
0
又一眼
又一眼
Mongodb可以做到的。用关系数据库的话要你能理清关系,能建模,如果你这方面你觉得有所难度的话,用非关系型的完全可以做到。
就是我啊
就是我啊
尝试一下mongodb,或者楼上说的neo4j~
0
Tuesday
Tuesday
微博垃圾信息多呀, 建议采集网易吧.. 或者阿里巴巴.
就是我啊
就是我啊
社交网络这里大嘛
0
s
sosozzzx

推荐使用神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。 

简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 

返回顶部
顶部