MapReduce的input为包含小文件的zip压缩文件的相关实验

本文介绍如何使用Hadoop处理ZIP格式的压缩文件,通过实验演示了如何利用ZipFileInputFormat来处理包含多个小文件的ZIP文件,从而解决MapReduce任务中小文件过多导致的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop中也支持很多种压缩算法,比如gzip, zip, lzo等。将多个小文件压缩成一个压缩文件,不仅能节省空间,而且还能减少NameNode的内存压力。而且,有一些压缩文件(比如zip)对于MapReduce具有可分割性,能被分割成若干个split,适合作为 MapReduce 的输入。当然,如果一个压缩文件的size并不大,那么即便它包含了一定数量的小文件,MapReduce Job也只会为它启动一个Map——这也解决了小文件引起大量map的问题。


Zip是使用很广的一种压缩格式,因此本文在此对其作一个小实验。


实验:WordCount——input为一个zip文件(5个小文件)

推荐一篇文章:http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/。 它里面引用的代码在github上能够找到, 比如:https://github.com/cotdp/com-cotdp-hadoop/blob/master/src/test/java/com/cotdp/hadoop/ZipFileTest.java。 感兴趣的朋友可以自己试一下。

注意:我们需要在MapReduce Job里面指定一个zip 对应的InputFormat,比如“job.setInputFormatClass(ZipFileInputFormat.class)”。

当执行完MapReduce Job后,可以看到只启动了一个Map:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值