hadoop处理本该放在一起二进制数据流问题

lins1393997412 发布于 2013/08/31 10:26
阅读 257
收藏 0
      我有一个文件127M,两个节点,hadoop默认存储一块64M,刚好这个文件被分成两块存储在两个节点上,这个文件存储的是一个数据结构,结果在分割成块的时候,这个数据结构被分割成两部分,分别存储在两个节点的两个快上。如果出现这种情况在map过程又不能进行通信,当如何处理这种结构了。再比如如果存储的是文本文件,上面这种情况,刚好是一个单词被分成了两部分,那么该如何计算wordcount呢?
加载中
0
bchen
bchen

找个splitable的序列化方式存储这个文件?比如avro
一般Inputformat读取分割的文件都是判断如果start!=0,滤过第一个记录。

返回顶部
顶部