Hadoop中也支持很多种压缩算法,比如gzip, zip, lzo等。将多个小文件压缩成一个压缩文件,不仅能节省空间,而且还能减少NameNode的内存压力。而且,有一些压缩文件(比如zip)对于MapReduce具有可分割性,能被分割成若干个split,适合作为 MapReduce 的输入。当然,如果一个压缩文件的size并不大,那么即便它包含了一定数量的小文件,MapReduce Job也只会为它启动一个Map——这也解决了小文件引起大量map的问题。
Zip是使用很广的一种压缩格式,因此本文在此对其作一个小实验。
实验:WordCount——input为一个zip文件(5个小文件)
推荐一篇文章:http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/。 它里面引用的代码在github上能够找到, 比如:https://github.com/cotdp/com-cotdp-hadoop/blob/master/src/test/java/com/cotdp/hadoop/ZipFileTest.java。 感兴趣的朋友可以自己试一下。
注意:我们需要在MapReduce Job里面指定一个zip 对应的InputFormat,比如“job.setInputFormatClass(ZipFileInputFormat.class)”。
当执行完MapReduce Job后,可以看到只启动了一个Map: