19
回答
【HOT】【头疼】项目上线三个月,每天过亿的数据量....如何处理是好?
滴滴云服务器,限时包月0.9元,为开发者而生>>>   

1、忽略标题里面的中括号,不是【东京 HOT】

2、数据表里面的数据是在是太多了,通常要做一些数据统计报表之类的工作,头疼的很

3、已经做过如下的处理,但是...似乎已经快到极限,撑不下去了

     1) 分表

     2) 索引

     3) SQL优化优化再优化

     4)代码优化


4、 请求大家给个解决方案。我举个简单场景例子:

     登陆表里面会有用户的登陆记录,每个人会再一天内登陆很多次,你可以想象下,每天登陆的次数总计过亿次,但是我们可能需要的是一个去重复的数据(这只是一个简单场景)

 

    

举报
稻草鸟人
发帖于2年前 19回/2K+阅
共有19个答案 最后回答: 1年前
其实我觉得你应该笑,过亿的生产数据是很有分析价值的.
--- 共有 1 条评论 ---
稻草鸟人是应该笑了,而且是一个很好的锻炼机会....但是,现在能力有限啊,求方案,思路 2年前 回复

把数据推送到 HBase, 用离线方式去做统计分析。


--- 共有 4 条评论 ---
哈库纳回复 @稻草鸟人 : 第一:这货是要上集群的。第二:离线数据分析就不要太要求性能了,保证每天都能出报表就行了。 我们跑一个数据表到表的 copy 都要几分钟,一条复杂一点的离线任务跑个把个小时的都是常事。 2年前 回复
稻草鸟人昨天装了hive,创建了一个分区表,导入了1千万的数据,count统计的话效率并不是很高 2年前 回复
哈库纳回复 @稻草鸟人 : 资料这个木有哦, 离线分析这条路是比较靠谱的。每天全量数据扔到集群里跑 SQL。 2年前 回复
稻草鸟人在看hive相关的东西,不知道大牛有没有什么推荐资料呢,除了官网 2年前 回复

东京热最近换系统了。终于从原来那个红黑页面。换成蓝色背景了,收购了好几家公司,目前提供在线高清播放功能。然后还提供了之前SkyAngel等视频(应该是收购的,当然东热还有gay产品)。所以东热新的网站+视频平台每日估计也有过亿的访问量。而且收入不菲。它的网站架构和高清视频直播技术值得研究研究

--- 共有 1 条评论 ---
稻草鸟人(⊙o⊙)… 2年前 回复

不知道你们当前策略是什么。我有两个个想法:

1.数据库表分层。比如设计一层表收集原始数据,定时收集一层表的数据根据条件收敛到二层的结算分析表,定时分五可以时间间隔短一点,比如一个小时一次。

2.针对于简单场景,登录次数这种统计可以放在cookie,session里去做吧?

--- 共有 1 条评论 ---
稻草鸟人1. 现在是分了两段,一段是原始数据,另外一段是统计数据....实际情况是原始数据非常大,统计起来很费事(这个是问题所在),统计数据的数据量其实也很大,最后呈现给用的体验效率会比较差,这个这也是问题所在 2、这个登录的情况是可以这样做,但是实际报表数据通常维度会很多,运营的需求也是多样的..这种情况的处理就是比较难了,现在想要的是一种实时数据统计的解决方案 2年前 回复
定时后台脚本分析,可结合一些工具如elasticsearch做索引分析。
--- 共有 4 条评论 ---
Jack_Q回复 @稻草鸟人 : ES做出文本索引应该速度还算可以 2年前 回复
稻草鸟人回复 @Jack_Q : 定时脚本是独立的项目,现在是定时脚本跑出来的统计好的数据,在查询的时候也很慢,因为数量还是很庞大 2年前 回复
Jack_Q回复 @稻草鸟人 : 定时脚本独立为多个分析服务。 2年前 回复
稻草鸟人现在有做一些定时脚本....这种脚本比较多了,现在耗时也比较多 2年前 回复
这种原始日志就应该放到hdfs上,你做分析用mapreduce或者spark就够了,原始数据存到mysql是几个意思?
--- 共有 1 条评论 ---
稻草鸟人原始数据是存到了inforbright里面,不是mysql,mysql存放的是统计好的数据,但是量也很大。现在在看hive,现在还不知道怎么玩 2年前 回复
顶部