MapReduce排序总结

Hadoop MapReduce全局排序详解

最新推荐文章于 2023-03-23 17:26:14 发布

原创

最新推荐文章于 2023-03-23 17:26:14 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

本文总结了Hadoop MapReduce的排序机制，包括默认的key排序、二次排序以及全局排序的实现方式，如单一Reducer、自定义Partitioner和使用TotalOrderPartitioner，特别是讨论了TotalOrderPartitioner如何解决OOM和数据倾斜问题，并介绍了三种采样器的工作原理。

【1】Hadoop默认的排序算法，只会针对key值进行排序，按照字典顺序排序

【2】二次排序，在一个数据文件中，首先按照key排序。在key相同的情况下，再按照value大小排序。难度在于要同时参考两列的数据，可以将一行中的两列值封装到bean中。实现WritableComparable接口，重写compareTo进行排序，指定比较规则，实现二次排序，具体可参见博客

【3】全局排序
1、使用一个Reducer
优点：实现简单
缺点：没有利用分布式

2、重写Partioner类
通过重写Partition类，把key在一个范围内的发往一个固定的Reducer，这样在一个Reducer内key是全排序的，在Reducer之间按照序号也是排好序的。比如key代表的是一个年龄，可以把数据输出到10个Reducer。1-10岁之间发往第0个Reducer，11-20发往第2个Reducer，以此类推。但是这样做有两个缺点：

当数据量大时会出现OOM（内存用完了）
会出现数据倾斜

3、 TotalOrderPartitioner类
Hadoop提供TotalOrderPartitioner类用于实现全局排序的功能，并且解决了OOM和数据倾斜的问题。TotalOrderPartitioner类提供了数据采样器，对key值进行部分采样，然后按照采样结果寻找key值的最佳分割点，将key值均匀的分配到不同的分区中。TotalOrderPartitioner 类提供了三个采样器，分别是：

SplitSampler 分片采样器，从数据分片中采样数据，该采样器不适合已经排好序的数据
RandomSampler随机采样器，按照设置好的采样率从一个数据集中采样，是一个优秀的通配采样器
IntervalSampler间隔采样机，以固定的间隔从分片中采样数据，对于已经排好序的数据效果非常好

三个采样器都实现了K[] getSample(InputFormat<K,V> inf, Job job)方法，该方法返回的是K[]数组，数组中存放的是根据采样结果返回的key值，即分隔点，MapRdeuce就是根据K[]数组的长度N生成N-1个分区partition数量，然后按照分割点的范围将对应的数据发送到对应的分区中。TotalOrderPartitioner类实现全局排序的功能。代码如下：

Map类：
public class MaxTempMapper extends Mapper<IntWritable, IntWritable, IntWritable, IntWritable>{
   
   
    protected void map(IntWritable key, IntWritable value, Context context) throws IOException, InterruptedException {
   
   
     /*   String line=value.toString();
        String arr[]=line.split(" ");*/
        context.write(key,value);
    }
}

 
Reduce类：
public class MaxTempReducer

最低0.47元/天解锁文章