1
回答
Spark能否处理zip文件
极速云服务器,低至1.04元/天>>>   
使用spark运算时,如何处理zip文件得到RDD
<无标签>
举报
san_maoo
发帖于1年前 1回/445阅

还是自己来回答吧,还是没有找到处理zip文件的方法,但是采用了另外一种方案解决这个问题。

需要使用zip文件主要是存储在hdfs上面的文件都是小文件,文件数量比较大,直接存储的话会导致namenode节点的内存占用量过大,然后想直接存储zip文件,但是做数据分析的时候不好处理;于是采用了将原小文件归档为har文件的方式,这种方式文件占用空间不变,但是会减轻namenode的压力,然后做运算的时候直接读取har文件

顶部