Hadoop框架排序和分组的理解

最新推荐文章于 2024-04-30 17:09:53 发布

转载最新推荐文章于 2024-04-30 17:09:53 发布 · 367 阅读

·

0

·

__MapReduce 专栏收录该内容

75 篇文章

订阅专栏

本文介绍了Hadoop MapReduce框架中任务的混洗过程及排序机制。解释了Map任务如何通过缓存和spill操作处理输出，并详细描述了Combiner函数的作用。此外还讨论了如何自定义排序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.youkuaiyun.com/zuochanxiaoheshang/article/details/8986114

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。

一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。

每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”。Spill过程中，Map仍可以向缓存写入结果，如果缓存已经写满，那么Map进行等待。

Spill的具体过程如下：

首先，后台线程根据Reducer的个数将输出结果进行分组，每一个分组对应一个Reducer。

其次，对于每一个分组后台线程对输出结果的Key进行排序。在排序过程中，如果有Combiner函数，则对排序结果进行Combiner函数进行调用。每一次spill都会在硬盘产生一个spill文件。

因此，一个Map task有可能会产生多个spill文件，当Map写出最后一个输出时，会将所有的spill文件进行合并与排序，

输出最终的结果文件。

在这个过程中Combiner函数仍然会被调用。从整个过程来看，Combiner函数的调用次数是不确定的。

Hadoop是如何进行排序的呢？

根据笔者的理解，MapReduce的排序过程分为两个步骤，一个按照Key进行排序；一个是按照Key进行分组。这两部分分别由SortComparator和GroupingComparator来完成。

具体的配置如下面黑体所示：

job.setPartitionerClass(FirstPartitioner.class);

job.setSortComparatorClass(KeyComparator.class);

job.setGroupingComparatorClass(GroupComparator.class);

如果用户想自定义排序方式，首先需要实现两个Comparator并将其按照上面的格式进行配置。每一个Comparator需要继承WritableComparator基类。如下所示：

public static class GroupComparator extends WritableComparator {

protected GroupComparator() {

super(IntPair.class, true);

}

@Override

public int compare(WritableComparable w1, WritableComparable w2) {

IntPair ip1 = (IntPair) w1;

IntPair ip2 = (IntPair) w2;

return IntPair.compare(ip1.getFirst(), ip2.getFirst());

}

}

版权声明：本文为博主原创文章，未经博主允许不得转载。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。