大型统计类站点如何实现的呢

水木 发布于 2013/10/16 23:16
阅读 218
收藏 0

突然对我们每天都要用的统计系统来了兴趣

最早用自己服务器上的单机统计

后来用阿江的单机版统计 然后用他的统计服务 再后来到了51la统计

现在用百度统计


现在想

如此大的日志数据量怎么处理的

怎么存储的

怎么分析统计的


百度的统计几乎是实时的

加载中
0
亮_ShardingSphere
亮_ShardingSphere

统计这个问题实际上没有什么标准的解决方案,只能说找到适合业务场景。我在百度工作过,没做过百度统计,但是统计过别的百度系统。

主要分两部分

一部分是记录有业务含义的操作,存到mysql。mysql不是完全实时,而是采用master-slave的方式。对于过大数据会影响mysql性能的问题,我当时做的系统是采用分库分表的方法,每个月创建512个表。通过userid取模进行表的查找。表的形式相当于optlog_2013_10_001 - optlog_2013_10_512

另一部分是采用hadoop,记录点击日志,用于统计点击率和转化率,作为离线分析,实时性会更差一些。

希望能帮到你。对于这个问题我也挺有兴趣,希望能继续讨论

0
开源中国董事会主席
开源中国董事会主席
访问者ip 访问时间 来源 浏览器信息 访问url是会记录到统计系统的access log 中,定时从这里面取出来 导入到数据库中
0
奔小康
奔小康
所谓统计当然少不了数据,要有数据采集部分,还要数据存储,再就是计算。数据采集比较乱,主要是看你关注什么数据了。大数据的存储现在比较流行的是nosql.计算框架当然是hadoop
0
水木

@terrymanu mysql肯定扛不住不百度统计几十亿每天的量,用于统计点击率和转化率 能具体介绍介绍吗

@腾勇 你说的这个就是我们最早用的单机版,数据大一大就不行了,几十万PV都扛不住。

@奔小康 说的比较想当然了。

0
亮_ShardingSphere
亮_ShardingSphere

引用来自“水木”的答案

@terrymanu mysql肯定扛不住不百度统计几十亿每天的量,用于统计点击率和转化率 能具体介绍介绍吗

@腾勇 你说的这个就是我们最早用的单机版,数据大一大就不行了,几十万PV都扛不住。

@奔小康 说的比较想当然了。

点击率和转化率那里我没直接做。只知道个大概。就是每点击一次就写一条log,然后每天离线分析。将分析好的数据写入数据库或者hbase。日志很大,大部分都丢弃了,只有出bug的时候才会往回找,记得一次出bug,光找日志就花了一晚上。

不可能用mysql统计几十亿数据,mysql只用来统计重要的逻辑数据。海量数据还是hadoop,但是实时性要求比较差,我做的系统都是只能统计到上个月的,而且只存3个月的历史记录。并且不会实时查询,而是将用户的查询请求异步,做完之后给用户发邮件

返回顶部
顶部