hadoop-Combiner作用用法

最新推荐文章于 2025-09-06 21:58:22 发布

weixin_33885676

最新推荐文章于 2025-09-06 21:58:22 发布

阅读量61

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/zhangtongzct/p/6092995.html

本文介绍如何通过使用Combiner组件来优化MapReduce任务中的数据传输过程，减少网络带宽的压力。Combiner可以在Map阶段结束后对中间结果进行局部聚合，减少传递给Reduce的数据量。

文章来源http://blog.youkuaiyun.com/ipolaris/article/details/8723782

reduce的输入每个key所对应的value将是一大串1，但处理的文本很多时，这一串1已将占用很大的带宽，如果我们在map的输出给于reduce之前做一下合并或计算，那么传给reduce的数据就会少很多，减轻了网络压力。此时Combiner就排上用场了。我们现在本地把Map的输出做一个合并计算，把具有相同key的1做一个计算，然后再把此输出作为reduce的输入，这样传给reduce的数据就少了很多。Combiner是用reducer来定义的，多数的情况下Combiner和reduce处理的是同一种逻辑，所以job.setCombinerClass()的参数可以直接使用定义的reduce，当然也可以单独去定义一个有别于reduce的Combiner，继承Reducer，写法基本上定义reduce一样。让我们看一下，加入Combiner之前的处理结果

转载于:https://www.cnblogs.com/zhangtongzct/p/6092995.html