MapReduce 排序三种实现方式

MapReduce 排序两种实现方式

MapReduce 排序两种实现方式 都是借助重写 compareTo 方法 实现
方式一:借助 MapReduce 按照 Key 排序特性,在WritableComparable实现类中 重写 compareTo 方法
方式二:在 Reduce 阶段 cleanUp方法中将最终结果封装到实现JavaBean对象使用集合的排序方法
方式三:在 Reduce 阶段 cleanUp方法中将最终结果封装到实现Comparable的实现类使用集合的排序方法

方式一

该方式需要两次 MapReduce
第一次 MapReduce 做分类统计
第二次 MapReduce 实现排序

第一次 MapReduce 做分类统计

  1. 第一次 MapReduce 做分类统计 Mapper 类

    package cn.lhz.hadoop.mapreduce.wordcount03;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;
    
    import java.io.IOException;
    import java.util.StringTokenizer;
    
    /**
     * map 阶段
     * Mapper<LongWritable, Text, Text, IntWritable>
     * 前两个 LongWritable,Text 为 map 输入数据的类型,LongWritable 文本文件偏移量,Text 是读取一行的内容
     * 后两个 Text,IntWritable 为 map 输出数据的类型 ,map输出 是一个 key value 数据结构, Text 是 key 的数据类型,IntWritable 是 value 的数据类型
     *
     * @author 李昊哲
     * @version 1.0.0
     */
    public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
         
         
      // 定义map输出的value
      private final static IntWritable one = new IntWritable(1);
    
      // 定义map输出的key
      private final Text word = new Text();
    
      /**
       * @param key     map输入偏移量
       * @param value   map输入的内容
       * @param context Mapper.Context 可以利用该对象做 map 的输出操作
       * @throws IOException          IOException
       * @throws InterruptedException InterruptedException
       */
      @Override
      protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
         
         
        // 将输入的内容转为 java 字符串
        String line = value.toString();
        // 默认分隔为 空格 \t \n \r 可以利用构造方法传入自定义分隔符
        StringTokenizer itr = new StringTokenizer(line);
        while (itr.hasMoreTokens()) {
         
         
          // 获取每一行中的每一个单词
          String string = itr.nextToken();
          // 封装 map 阶段输出 key
          word.set(string);
          // 将读取内容安需求输(map阶段输出)
          context.write(word, one);
        }
      }
    }
    
    
  2. 第一次 MapReduce 做分类统计 Reducer 类

    package cn.lhz.hadoop.mapreduce.wordcount03;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Reducer;
    
    import java.io.IOException;
    
    /**
     * reduce 阶段
     * Reduce<Text, IntWritable,Text,IntWritable> 中四个泛型 两个为一组
     * 前两个 LongWritable,Text 为 map 输出 reduce 输入 数据的类型,map 输出 reduce 输入 是一个 key value 数据结构, Text 是 key 的数据类型,IntWritable 是 value 的数据类型
     * 后两个 Text,IntWritable 为 reduce 输出数据的类型 ,reduce 输出 是一个 key value 数据结构, Text 是 key 的数据类型,IntWritable 是 value 的数据类型
     *
     * @author 李昊哲
     * @version 1.0.0
     */
    public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
         
         
      // 定义 reduce 输出 value
      private IntWritable result = new IntWritable();
    
      @Override
      protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
         
         
        // 单词数量累加的和
        int sum = 0;
        // 遍历迭代器
        for (IntWritable value : values) {
         
         
          // 单词标记累加得到单词数量
          sum += value.get();
        }
        // 封装 reduce 输出 value
        result.set(sum);
        // reduce 输出
        context.write(key, result);
      }
    }
    
    
    1. 第一次 MapReduce 做分类统计 Job 类
    package cn.lhz.hadoop.mapreduce.wordcount03;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.hdfs.DistributedFileSystem;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    
    import java.net.URI;
    
    
    /**
     * 本地提交 mapreduce 任务到 集群
     * 1、打包项目
     * 2、重新编写代码 添加 本地 jar 文件路径 job.setJar(本地jar文件路径)
     * 3、本地提交
     * 服务器提交 mapreduce 任务到 集群
     * 1、打包项目 注意:代码中不允许出现 job.setJar(本地jar文件路径)
     * 2、上传 jar文件到集群
     * 3、提交 hadoop jar hadoop.jar cn.lhz.hadoop.mapreduce.wordcount03.WordCount
     *
     * @author 李昊哲
     * @version 1.0.0
     */
    public class WordCount {
         
         
    
      public static void main(String[] args) throws Exception {
         
         
        // 设置环境变量 hadoop 用户名 为 root
        System.setProperty("HADOOP_USER_NAME", "root");
    
        // 参数配置对象
        Configuration conf = new Configuration();
    
        // 跨平台提交
        conf.set("mapreduce.app-submission.cross-platform", "true");
    
        // 本地运行
        // conf.set("mapreduce.framework.name", "local");
    
        // 设置默认文件系统为 本地文件系统
        // conf.set("fs.defaultFS", "file:///");
    
        // 声明Job对象 就是一个应用
        Job job = Job.getInstance(conf, "word count");
    
        // 本地提交启用该行
        // job.setJar("F:\\code\\bigdata2024\\bigdata\\hadoop\\target\\hadoop.jar");
    
        // 指定当前Job的驱动类
        job.setJarByClass(WordCount.class);
    
        // 指定当前Job的 Mapper
        job.setMapperClass(WordCountMapper.class);
        // 指定当前Job的 Combiner 注意:一定不能影响最终计算结果 否则 不使用
        job.setCombinerClass(WordCountReduce.class);
        // 指定当前Job的 Reducer
        job.setReducerClass(WordCountReduce.class);
    
        // 设置 map 输出 key 的数据类型
        job.setMapOutputValueClass(Text.class);
        // 设置 map 输出 value 的数据类型
        job.setMapOutputValueClass(IntWritable.class);
        // 设置 reduce 输出 key 的数据类型
        job.setOutputKeyClass(Text.class);
        // 设置 reduce 输出 value 的数据类型
        job.setOutputValueClass(IntWritable.class);
        // 定义 map 输入的路径 注意:该路径默认为hdfs路径
        FileInputFormat.addInputPath
### MapReduce自定义排序实现方法 在MapReduce框架中,默认会对键(Key)进行升序排序。然而,在某些场景下,可能需要基于特定逻辑对数据进行排序。为了满足这种需求,可以通过实现`WritableComparable`接口并重写其`compareTo`方法来完成自定义排序[^2]。 以下是具体实现方式: #### 1. 定义自定义类 创建一个新的Java类继承`WritableComparable<T>`,其中T表示比较的对象类型。该类需覆盖两个主要方法: - `write`: 将对象序列化为字节流。 - `readFields`: 反序列化字节流恢复对象状态。 - `compareTo`: 实现自定义的比较逻辑。 ```java import org.apache.hadoop.io.WritableComparable; public class CustomKey implements WritableComparable<CustomKey> { private int score; private String name; public CustomKey() {} public CustomKey(int score, String name) { this.score = score; this.name = name; } @Override public void write(java.io.DataOutput out) throws java.io.IOException { out.writeInt(score); out.writeUTF(name); } @Override public void readFields(java.io.DataInput in) throws java.io.IOException { this.score = in.readInt(); this.name = in.readUTF(); } @Override public int compareTo(CustomKey other) { // 按照分数降序排列 return Integer.compare(other.score, this.score); } } ``` 上述代码展示了如何通过覆写`compareTo`函数指定按分数降序的方式进行排序。 #### 2. 使用自定义类作为Mapper输出的Key 修改Mapper中的输出类型为刚才定义好的`CustomKey`实例,并设置对应的Value值。 ```java import org.apache.hadoop.mapreduce.Mapper; public static class FlowSumSortMapper extends Mapper<LongWritable, Text, CustomKey, IntWritable> { protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] tokens = value.toString().split("\t"); // 解析输入记录... int totalScore = ... ; // 计算总分 CustomKey customKey = new CustomKey(totalScore, studentName); context.write(customKey, new IntWritable(1)); } } ``` 这里我们假设每条记录代表一名学生的信息,解析后计算出每位学生的总成绩存入`totalScore`变量里,再构建新的`CustomKey`传给Reducer处理[^3]。 #### 3. Reducer部分无需特别调整 由于已经设置了自定义排序规则,因此reducer只需正常接收经过排序数据即可。 --- ### 总结说明 以上过程描述了怎样利用Hadoop API设计一套完整的解决方案用于解决复杂的业务问题。它不仅限于简单的数值对比操作,还可以扩展至更复杂的数据结构上应用类似的思路去解决问题[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李昊哲小课

桃李不言下自成蹊

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值