【HOT】【头疼】项目上线三个月,每天过亿的数据量....如何处理是好?

稻草鸟人 发布于 2015/10/28 19:40
阅读 3K+
收藏 5

1、忽略标题里面的中括号,不是【东京 HOT】

2、数据表里面的数据是在是太多了,通常要做一些数据统计报表之类的工作,头疼的很

3、已经做过如下的处理,但是...似乎已经快到极限,撑不下去了

     1) 分表

     2) 索引

     3) SQL优化优化再优化

     4)代码优化


4、 请求大家给个解决方案。我举个简单场景例子:

     登陆表里面会有用户的登陆记录,每个人会再一天内登陆很多次,你可以想象下,每天登陆的次数总计过亿次,但是我们可能需要的是一个去重复的数据(这只是一个简单场景)

 

    

加载中
2
大王来巡山
大王来巡山
其实我觉得你应该笑,过亿的生产数据是很有分析价值的.
稻草鸟人
稻草鸟人
是应该笑了,而且是一个很好的锻炼机会....但是,现在能力有限啊,求方案,思路
2
huzorro
huzorro

redis的sets去重  list做队列 按照你分析的粒度 做实时聚合 上亿的数据也不是一下就产生的 

1
哈库纳
哈库纳

把数据推送到 HBase, 用离线方式去做统计分析。


哈库纳
哈库纳
回复 @稻草鸟人 : 第一:这货是要上集群的。第二:离线数据分析就不要太要求性能了,保证每天都能出报表就行了。 我们跑一个数据表到表的 copy 都要几分钟,一条复杂一点的离线任务跑个把个小时的都是常事。
稻草鸟人
稻草鸟人
昨天装了hive,创建了一个分区表,导入了1千万的数据,count统计的话效率并不是很高
哈库纳
哈库纳
回复 @稻草鸟人 : 资料这个木有哦, 离线分析这条路是比较靠谱的。每天全量数据扔到集群里跑 SQL。
稻草鸟人
稻草鸟人
在看hive相关的东西,不知道大牛有没有什么推荐资料呢,除了官网
0
开源中国首席二弟子
开源中国首席二弟子
没有用缓存吗?
稻草鸟人
稻草鸟人
每天过亿的数据量,如何缓存呢,如果查询的是多天的数据就更悲剧了
0
雨翔河
雨翔河

没做缓存吗?

稻草鸟人
稻草鸟人
这里如何缓存,缓存之后如何聚合呢?
0
七液
七液

东京热最近换系统了。终于从原来那个红黑页面。换成蓝色背景了,收购了好几家公司,目前提供在线高清播放功能。然后还提供了之前SkyAngel等视频(应该是收购的,当然东热还有gay产品)。所以东热新的网站+视频平台每日估计也有过亿的访问量。而且收入不菲。它的网站架构和高清视频直播技术值得研究研究

稻草鸟人
稻草鸟人
(⊙o⊙)…
0
吾王不要急
吾王不要急

不知道你们当前策略是什么。我有两个个想法:

1.数据库表分层。比如设计一层表收集原始数据,定时收集一层表的数据根据条件收敛到二层的结算分析表,定时分五可以时间间隔短一点,比如一个小时一次。

2.针对于简单场景,登录次数这种统计可以放在cookie,session里去做吧?

稻草鸟人
稻草鸟人
1. 现在是分了两段,一段是原始数据,另外一段是统计数据....实际情况是原始数据非常大,统计起来很费事(这个是问题所在),统计数据的数据量其实也很大,最后呈现给用的体验效率会比较差,这个这也是问题所在 2、这个登录的情况是可以这样做,但是实际报表数据通常维度会很多,运营的需求也是多样的..这种情况的处理就是比较难了,现在想要的是一种实时数据统计的解决方案
0
d
dever2011
实在不行,就向阿里寻求帮助吧.....
稻草鸟人
稻草鸟人
目前公司的情况是不可能这么做的
0
Jack_Q
Jack_Q
定时后台脚本分析,可结合一些工具如elasticsearch做索引分析。
Jack_Q
Jack_Q
回复 @稻草鸟人 : ES做出文本索引应该速度还算可以
稻草鸟人
稻草鸟人
回复 @Jack_Q : 定时脚本是独立的项目,现在是定时脚本跑出来的统计好的数据,在查询的时候也很慢,因为数量还是很庞大
Jack_Q
Jack_Q
回复 @稻草鸟人 : 定时脚本独立为多个分析服务。
稻草鸟人
稻草鸟人
现在有做一些定时脚本....这种脚本比较多了,现在耗时也比较多
0
gsyk
gsyk
这种原始日志就应该放到hdfs上,你做分析用mapreduce或者spark就够了,原始数据存到mysql是几个意思?
稻草鸟人
稻草鸟人
原始数据是存到了inforbright里面,不是mysql,mysql存放的是统计好的数据,但是量也很大。现在在看hive,现在还不知道怎么玩
返回顶部
顶部