关于hadoop的一个问题

hello_win 发布于 2012/08/16 17:19
阅读 213
收藏 0

  HDFS是一种读写性能很不对称的文件系统。应该尽可能的利用其读性能很强的特点。减少对写文件和shuffle操作的依赖。举例来说,当需要根据数据的 统计情况来决定对数据的处理的时候。将统计和数据处理分成两轮map-reduce比将统计信息合并和数据处理都放到一个reduce中要快速的多。

 

这里的将 统计和数据处理分成两轮map-reduce 如何理解

将统计信息合并和数据处理都放到一个reduce  如何理解

初学hadoop 希望高手指点,谢谢

加载中
0
烟花人
烟花人
这个只是相对的吧,每个域上执行 Map 函数和 Reduce 函数,然后将这两个键/值对列表应用到另一个 Reduce 函数,有个并行思想
返回顶部
顶部