三种方法实现Hadoop(MapReduce)全局排序(1)

最新推荐文章于 2023-11-09 21:48:15 发布

CoXie大数据

最新推荐文章于 2023-11-09 21:48:15 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：全局排序 Hadoop MapReduce

本文链接：https://blog.youkuaiyun.com/kuajiejuneng/article/details/81607947

本文介绍了如何在Hadoop MapReduce中实现全局排序，包括生成测试数据、使用单个Reduce进行排序以及自定义分区函数以确保全局有序。通过示例展示了不同方法的实现过程和结果验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们可能会有些需求要求MapReduce的输出全局有序，这里说的有序是指Key全局有序。但是我们知道，MapReduce默认只是保证同一个分区内的Key是有序的，但是不保证全局有序。基于此，本文提供三种方法来对MapReduce的输出进行全局排序。

1.生成测试数据

在介绍如何实现之前，我们先来生成一些测试数据，实现如下： ``` #!/bin/sh

for i in {1…100000};do
echo $RANDOM
done;


将上面的代码保存到 `iteblog.sh` 的文件里面，然后运行

$ sh iteblog.sh > data1
$ sh iteblog.sh > data2
$ hadoop fs -put data1 /user/iteblog/input
$ hadoop fs -put data2 /user/iteblog/input

分享之前我还是介绍下我的共粽好「CoXie 带你学编程」(id：Pythoni521)， 不管是大学生，还是工作人士， 只要想学，都欢迎进入交流

`$RANDOM` 变量是Shell内置的，使用它能够生成五位内的随机正整数。上面我们一共运行了两次，这样我们就有两份随机数文件data1和data2；最后我们把生成的随机数文件上传到HDFS上。现在我们可以来写程序对这两个文件里面的数据进行排序了。

<h2 id='2'>使用一个Reduce进行排序</h2>


前面我们说了，MapReduce默认只是保证同一个分区内的Key是有序的，但是不保证全局有序。如果我们将所有的数据全部发送到一个Reduce，那么不就可以实现结果全局有序吗？这种方法实现很简单，如下：

package com.iteblog.mapreduce.sort;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class TotalSortV1 extends Configured implements Tool {
static class SimpleMapper extends
Mapper<LongWritable, Text, IntWritable, IntWritable> {
@Override
protected void map(LongWritable key, Text value,
Context context) throws IOException, InterruptedException {
IntWritable intWritable = new IntWritable(Integer.parseInt(value.t