hadoop分析数据丢失

你的米粒儿 发布于 2015/07/20 10:30
阅读 457
收藏 1
最近发现hadoop的mapreduce程序会丢数据,不知道是什么原因,请教各位:
hadoop环境,通过mapreduce程序分析hdfs上的数据,一天的数据是按小时存储的,每一个小时一个文件价,数据格式都是一样的,现在如果在16点这个文件价里有一条数据a,如果我用mr分析一整天的数据,数据a则丢失,如果单独跑16点这个文件夹里的数据,则数据a不会丢失,可以正常被分析出来,只要一加上其他时间段的数据,数据a就分析不出来,请问这是为什么?

最近在学习spark,我用spark程序跑同样的数据,整天的,不会有丢失的问题,的所以我肯定不是数据格式的问题

希望大家能帮我解决这个hadoop的问题,谢谢啦
加载中
0
坏坏一笑
坏坏一笑
估计可能是读文件的时候没有遍历全,应该是你代码的问题,在提交任务之前有一步是将输入加入FileInputFomat中,你这部肯定要遍历目录的,检查一下是不是这部出现错误了
返回顶部
顶部