MapReduce排序之GroupingComparator

悠然予夏

于 2022-10-03 20:04:24 发布

阅读量687

点赞数

分类专栏：大数据文章标签： mapreduce java 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52851967/article/details/127155451

版权

注：分区排序（默认的分区规则，区内有序）

GroupingComparator是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义GroupingComparator实现不同的key作为同一个组，调用一次reduce逻辑。

1、需求

原始数据

订单id	商品id	成交金额
Order_0000001	Pdt_01	222.8
Order_0000001	Pdt_05	25.8
Order_0000002	Pdt_03	522.8
Order_0000002	Pdt_04	122.4
Order_0000002	Pdt_05	722.4
Order_0000003	Pdt_01	232.8

需要求出每一个订单中成交金额最大的一笔交易。

2、实现思路

Mapper

读取一行文本数据，切分出每个字段；
订单id和金额封装为一个Bean对象，Bean对象的排序规则指定为先按照订单Id排序，订单Id相等再按照金额降序排；
map()方法输出kv;key-->bean对象，value-->NullWritable.get()；

Shuffle

指定分区器，保证相同订单id的数据去往同个分区（自定义分区器）
指定GroupingComparator，分组规则指定只要订单Id相等则认为属于同一组；

Reduce

每个reduce()方法写出一组key的第一个

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

悠然予夏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。