三、hadoop MapReduce之Reduce代码编写

最新推荐文章于 2024-07-08 22:54:08 发布

东纪元

最新推荐文章于 2024-07-08 22:54:08 发布

阅读量334

点赞数

CC 4.0 BY-SA版权

分类专栏： mapreduce hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36951116/article/details/90970083

hadoop 同时被 2 个专栏收录

31 篇文章

订阅专栏

15 篇文章

订阅专栏

本文深入探讨了MapReduce框架中的Reduce阶段，详细解释了Reducer如何处理来自Mapper的输出，包括数据分组和汇总过程。强调了在分布式环境中，Reduce任务等待所有Map任务完成后再开始执行的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、与Map差不多，继承Reducer，一样是四个泛型参数。

前两个泛型参数指的是Map输出的k-v类型（即reduce输入的k-v类型）

后两个就是Reducer自身输出的k-v类型

2、然后要实现Reducer的reduce方法。

这个方法与Mapper的map方法有一点点区别，但是区别不大。

第一个参数是输入的key(map输出的key)，第二个参数是valueList，第三个参数是context

（1）其中第一个和第三个参数变化不大。。就略过。。

（2）第二个参数是怎么来的呢？

首先假设，Mapper的map方法每次调用context.write方法就相当于把一个key-value对添加到一个list中。

然后，在调用Reducer的reduce方法之前，hadoop的mapreduce框架会把上面的list根据key进行分组。也就是说，key相同的value都属于同一组，就会被添加到该key对应的valueList中

最后，交给reduce处理。

最后，根据上面可以知道，如果是分布式高并发的调用mapper的map，那么在调用reduce之前，hadoop框架会确保所有map都执行结束(即所有数据都经过map处理过了)，然后才会根据key进行分组，再集群调用reduce进行汇总。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。