MapReduce的inputformat为CombineFileInputFormat的相关实验

上面文章分别介绍了面对大量小文件时,可以通过SequenceFile的方法来减少启动map的数量。其实,还可以通过使用CombineFileInputFormat来减少map的数量。

由于网络上有不少介绍CombineFileInputFormat的文章,本文就不再赘述。这里推荐一篇文章:http://shiyanjun.cn/archives/299.html

根据这篇文章里提供的代码,可以很容易实现一个MapReduce Job来验证CombineFileInputFormat的功能。有一点提一下:

- 该代码CombineSmallfiles.java里面引用了一个Reducer类(org.shirdrn.kodz.inaction.hadoop.smallfiles.IdentityReducer),但他并没有将这个类贴出来。不过我们可以直接注释掉行“job.setReducerClass(IdentityReducer.class);”,因为通过Reducer的名字IdentityReducer可以看出该Reducer其实只是忠实地把输入转成了输出,并没有做其他的事情。其实,作者在评论里面也提供了他遗失代码的repository,但我没试过。


实验:用CombineFileInputFormat在MapReduce Job中处理作为输入的多个小文件

实验中的MapReudce的input为几个小文件:


执行结果里显示MapReduce job只启动了一个Map:



简单总结一下:通过使用CombineFileInputFormat的确可以来减少map的数量,但它并不能减少NameNode的压力——因为HDFS上还是存在同样数目的小文件。另外,感觉CombineFileInputFormat的概念和实现也不算太straightforward。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值