hadoop hive window function reduce任务卡住超时(45分钟)

kelson 发布于 2014/06/05 20:57
阅读 1K+
收藏 0

求助。现有cdh5,hive版本为0.12,在对一个表大概60多成条记录进行分窗处理时(服务器配置比较高,内存256G,配置container可分配内存为130G),跑到最后一个reduce一直卡死。

最后一句日志是:org.apache.hadoop.mapred.FileInputFormat: Total input paths to process :1。

现先跑前其它数据还好好的,跑几百万条也在半小时内处理完成,后面估计是因为改动了啥配置,现在60万都跑不过去,跑几成条也很快。 怀疑是否文件损坏,使用parquet文件格式 ,hdfs高可用部署影响文件读写。

有哪位高手可以帮忙解答一下,十分感谢。

加载中
0
kelson
kelson
已确认是数据的问题,我跑其它天的数据比这天的数据大几十陪都问题,而且当天的数据也并不是所有数据都跑不过去,某一系统制造的数据才有问题,但具体是哪样的数据质量问题还不确定。
0
h
hardtolose

引用来自“kelson”的评论

已确认是数据的问题,我跑其它天的数据比这天的数据大几十陪都问题,而且当天的数据也并不是所有数据都跑不过去,某一系统制造的数据才有问题,但具体是哪样的数据质量问题还不确定。
后来有找到问题吗?我也碰到了类似的问题。。最后一个reduce一直卡住,最后被自动杀掉,日志的最后一句话也是跟你那个一样
返回顶部
顶部