Spark能否处理zip文件

san_maoo 发布于 2016/11/02 09:35
阅读 514
收藏 0
使用spark运算时,如何处理zip文件得到RDD
加载中
0
san_maoo
san_maoo

还是自己来回答吧,还是没有找到处理zip文件的方法,但是采用了另外一种方案解决这个问题。

需要使用zip文件主要是存储在hdfs上面的文件都是小文件,文件数量比较大,直接存储的话会导致namenode节点的内存占用量过大,然后想直接存储zip文件,但是做数据分析的时候不好处理;于是采用了将原小文件归档为har文件的方式,这种方式文件占用空间不变,但是会减轻namenode的压力,然后做运算的时候直接读取har文件

返回顶部
顶部