中科院专家:Hadoop平台存在三个方面的挑战 - 开源中国社区
中科院专家:Hadoop平台存在三个方面的挑战
老枪 2010年09月05日

中科院专家:Hadoop平台存在三个方面的挑战

老枪 老枪 发布于2010年09月05日 收藏 0 评论 19

免费体验IBM Cloud,构建Iot应用 >>>  

中科院计算所举办的“第四届Hadoop in china 2010中国云计算大会”,于9月4日在北京闭幕。本次大会有千余Hadoop云计算技术精英、互联网企业、行业领袖参加,并做深度演讲。

以下是中科院专家程学旗谈到的Hadoop面临的3大挑战。


图:中科院计算机所专家程学旗

大规模数据处理技术与挑战。他认为在大规模数据处理技术,互联网大规模企业是走在科研的前面的,因为互联网本身就是裂变式的增长 的。现在的网络服务、信息规模都是在裂变式增长,而现在的信息节点规模基本达到了十亿、百亿、万亿为单位的处理。那么Hadoop在这种数据规模下是怎样 存储、组织和索引数据的呢?又该怎样去搜索和访问有价值的数据呢?程学旗表示这样大的规模处理也带来了巨大的挑战。

大规模数据处理的算法挑战

程学旗从两个角度探讨了Hadoop应用,一个是规模增长对Web规模数据处理算法的挑战。他认为面对这么大的网络和大规模的数据节点,如何找到合适的 算法和处理策略是很重要同时也是一个巨大的挑战。理论跟实践的结合也是很重要的,有些算法可能很好,但是在实践中未必会发挥实际作用。程学旗认为现在对数 据的分析大概方法就是密度估计、分析、分类、检测等等,他表示数据算法以后也会有很多很多,但是这些算法能否有通用的机制进行性能质的改进,本质上他做一 些提升,有没有这样的机制?这是一个非常大的挑战。 程学旗认为算法和数据的一些认识和方法能否产生价值和作用可以从两个方面考虑:第一现在的算法网络化之后我们要重新思考这个算法机制的问题,第二,云计算 能不能对这些算法进行有效的支持。

针对算法问题程学旗也举了两个技术,第一个是推荐技术,比如说一个人从行为的开发性买了啤酒、尿布、 牛奶,从网上处理的时候这个规模非常大,但实际上放到我们模型上非常的稀疏。这个时候以计算的视角,大规模的系统空间里面要从不同的视角考虑怎么样去移植 云计算,如果说最优化的方法是按方的话,那么在多视角情况下可能要按立方求解。第二个是网络社区,比如说在QQ群里面有不同的社区,有一些社区是显示存在 的,有些是隐性的,而且交织在一起的。所以社区现象是网络信息的分布,网络形态的一个基本的现象。这个基本的现象为什么要进行研究?从商业价值来看,对这 种产品的推广,提高朋友的推荐,环境的推荐、用户黏性增强都很有价值。但是做一个社区分析如果把它变成一个简单从物理来看是一个很简单的思路,比如说一个 网络的点,这些最简单的办法就是用有效的方法去连接稠密给它找出来。当然在互联网里面,在Web情况下,它实际上也是一个大规模稀疏这样一个网络。在稀疏 网络里面去发现社区,实际上它是一种指数型的方法。程学旗认为算法自身也面临一些困境,这些都需要大家一起来解决。

大规模数据处理的维度问题

程学旗说到的第二个问题就是维度问题。最简单的就是搜索,在搜索中,下一个空间模型,一个文本下一个空间可能是十万以上,高维度就可能带来维数灾难,而 随着维数的增加,就会极大地增多问题的处理难度,同时也会大大降低时效性。对于这种高纬度数据,压缩技术也显得很重要,程学旗认为可以参考基于有效的纬度 的约减的压缩,该压缩方式本身也可以去噪音。除此之外数据挖掘也是一项重点,挖掘就包括:广告挖掘、文本挖掘、图象检索、入侵检测、电板设计等等。

Hadoop存在三个方面的挑战。

程学旗认为Hadoop现在还是不够成熟,主要表现在以下三个方面:首先在数据存储方面,低成本可扩展的问题。程学旗从公开的数据看到就是在 Hadoop目前集群中裸数据的容量12P左右,每天的增加的商业数据是20T-30T。这样每天的更新就带来存储管理上的挑战与压力。第二是文件和数据 的管理方面,程学旗介绍说我们在Hadoop上看到一些老的数据,比如说Flicr的文件是30亿张图片,Facebook是600亿张图片。怎么样做到 这种大规模小文件和大文件的并存的情况下如何做到管理的灵活性、方便性和性能高效,这实际上是目前我们很多商业化云计算平台需要重点要解决一个问题。也就 是说如何构建支持高效率存储访问的大规模的小文件管理,以及大文件和小文件如何共同管理,这是目前海量数据存储面临一个问题。最后就是基于MR数据计算的 问题。程学旗介绍在大的任务分发的时候,每一个MAP需要传输一个文件过去,每次都需要一个磁盘的I/O和一次网络传输,当多个Reduce同时读取同一 个节点上的MAP输出数据时磁盘带宽将形成瓶颈,极大的降低通信性能。所以如何在支持运行时容错的同时进行高效数据传输,分布式数据处理平台如何更好的支 持复杂算法?

程学旗的演讲中主要讲了两个圈子里的人:做算法、分析的圈子和做架构、设计的圈子。这两个不同的圈子现在已经开始在思考他们怎么样结合了。当然至少现在还没有很好的突破点,未来的话也许是一个巨大的挑战。最后程学旗表示中科院计算所将大力支持开源。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:中科院专家:Hadoop平台存在三个方面的挑战
分享
评论(19)
最新评论
0

引用来自“hokim”的评论

看了一大堆文字,没看出什么来
sdfs
0
中科院那帮B, 就会j8整天jjyy.
0
限制的繁体是“限制”,而不是“限製”,一般用于动词时的“制”繁化为“製”。
0

引用来自“jingshishengxu”的评论

引用来自“李心陽”的评论

引用来自“jingshishengxu”的评论

引用来自“李心陽”的评论

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)

云南上学用的繁体吗?

没有呀,用簡體的,祇是個人喜好,平時也喜歡寫寫書法甚么的,呵呵。记得上學哪會兒,用左手寫字者被老師给校過來,説是“不正之風,存四舊觀念”,其實自己認為挺好,。自己寫的所有東西都是繁體。我不覚得奇怪,為甚么會有太多的人在意繁簡的問題,難道正是所谓的扶正路線的“正確”觀?

俗话说 字如其人,见字如见人。你的文字代表了你的形象,不只是自己觉得好玩而已。字主要还是给别人看的,其次才是给自己看的,所以还是多注意一点好

这位兄台的话让我想起了很久之前一大哥说的,所谓细节见为人,就算是一个“一”字也要写直呀
0
如何在pc级别上做并行计算我认为:中科院绝对没有商业公司的架构师团队厉害。
0

引用来自“Kewin Wang”的评论

呵呵 没想到我的小小好奇 大家尽然都来批判了 在此打住哦 谢谢诶

没看出来有批判的意思吧,多虑了,呵呵
0
呵呵 没想到我的小小好奇 大家尽然都来批判了 在此打住哦 谢谢诶
0

引用来自“李心陽”的评论

引用来自“jingshishengxu”的评论

引用来自“李心陽”的评论

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)

云南上学用的繁体吗?

没有呀,用簡體的,祇是個人喜好,平時也喜歡寫寫書法甚么的,呵呵。记得上學哪會兒,用左手寫字者被老師给校過來,説是“不正之風,存四舊觀念”,其實自己認為挺好,。自己寫的所有東西都是繁體。我不覚得奇怪,為甚么會有太多的人在意繁簡的問題,難道正是所谓的扶正路線的“正確”觀?

俗话说 字如其人,见字如见人。你的文字代表了你的形象,不只是自己觉得好玩而已。字主要还是给别人看的,其次才是给自己看的,所以还是多注意一点好
0

引用来自“李心陽”的评论

引用来自“jingshishengxu”的评论

引用来自“李心陽”的评论

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)

云南上学用的繁体吗?

没有呀,用簡體的,祇是個人喜好,平時也喜歡寫寫書法甚么的,呵呵。记得上學哪會兒,用左手寫字者被老師给校過來,説是“不正之風,存四舊觀念”,其實自己認為挺好,。自己寫的所有東西都是繁體。我不覚得奇怪,為甚么會有太多的人在意繁簡的問題,難道正是所谓的扶正路線的“正確”觀?

就和你使用繁体的习惯一样,我就不习惯看繁体.
看得少了,很多字不如简体那么直观.
0
寫書信都是用從右到左,上文下書的方式。
0

引用来自“jingshishengxu”的评论

引用来自“李心陽”的评论

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)

云南上学用的繁体吗?

没有呀,用簡體的,祇是個人喜好,平時也喜歡寫寫書法甚么的,呵呵。记得上學哪會兒,用左手寫字者被老師给校過來,説是“不正之風,存四舊觀念”,其實自己認為挺好,。自己寫的所有東西都是繁體。我不覚得奇怪,為甚么會有太多的人在意繁簡的問題,難道正是所谓的扶正路線的“正確”觀?
0
看了一大堆文字,没看出什么来
0

引用来自“李心陽”的评论

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)

云南上学用的繁体吗?
0

引用来自“Kewin Wang”的评论

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝

很抱歉,我是雲南昆明人,使用繁體是個人的慴貫:)
0

引用来自“李心陽”的评论

從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。

你是台湾的还是香港的 咋全部是繁体字 ,有点好奇?oschina.net的影响力这麽大啊 值得庆祝
0
從“計算機科學邏輯”來看本文,是有一定的道理的。就數據挖掘方面(檢索),受到幾個因素方面的限製,一是算法,二是硬件體本身的性能發恢,假設果算法上是可行的,但與物理層方面的性能上不能匹配,這個算法在優秀也没有意義,這使我想起陳省身的“數學機械化理論”,我想,這一理論也很有可能是解决程序邏輯與物理層關係比較實用的理論基礎。
0
为什么中国的技术专家不像国外那些专家那样 有很浓密胡子 至少这样看起来才感觉是个高编程或者程序开发——因为有人说了编程或者程序开发人员很多时候会因为工作而完掉时间——也就是所谓的“熬夜”
自然胡子也长了
看到我们的专家个个都光溜溜的,估计也只是白天上上班晚上刮刮小胡子,时间长了出来:发表一下所谓的理论就哦啦!
0
中科院永远都是嘴上谈兵.
0
中科院那帮孙 子,就成熟了!
顶部