比较感兴趣那些大公司在处理数据库的海量数据的时候是怎么做到?

尾小戒1993 发布于 2015/11/12 11:39
阅读 629
收藏 0
目前知道可以通过hadoop技术对log文件的解析,从海量数据得出一些有用的结果,但是一个大公司的数据库一定是巨大的,拿优酷来讲,我们在检索视频的时候,会列出一些相关的视频列表,这些肯定会经过数据库的,如果按照传统的做法(查数据库,封装list对象),估计系统会卡死吧?想知道优酷是如何做到那么快速的反应的?包括排序(比如按照时间排序),面对数据库的海量数据,也不能传统的ORDER BY了,那它是如何排序的呢?想到了堆排序(树状排序算法,效率应该不低,虽然我不会用O(∩_∩)O),不过想想也不对,排序的前提是先要查出数据,查这个动作本身就要进行处理吧?很好奇,感觉正常的项目只要牵扯到大数据量都要重新考虑CRUD的实现了,请来看的大神给个小小的解释啊~~小弟感激不尽~
加载中
1
eechen
eechen
不是有Memcached、Redis这些万金油的内存缓存吗?
尾小戒1993
尾小戒1993
redis已经学了一些,感觉的确是个不错的东西
0
公孙二狗
公孙二狗
全文索引,比用数据库快太多了,现在基本搜索都用全文索引
0
林中漫步
林中漫步

你了解下Hadoop的HDFS、MapReduce的原理,这个百度下看半小时就明白了。Hbase是真正的分布式数据库,其读写原理也基于HDFS技术。

其实,简单地说,就是多机并行计算完成一项作业。 排序也是一项作业,各计算机做完自己的那部分最后汇总。 当然,怎么把这个算法设计得更高效,那就有深度了。 

尾小戒1993
尾小戒1993
这些在做的时候需要自己动手写算法吗?
0
CloudArchitect
CloudArchitect
本质上都是堆机器
0
乌龟壳
乌龟壳
优酷的搜索只搜索标题吧,这个普通数据库应该就可以了吧?
返回顶部
顶部