mapreduce 编程

最新推荐文章于 2022-11-07 16:51:16 发布

原创最新推荐文章于 2022-11-07 16:51:16 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #java #hadoop

本文详细介绍了如何在Hadoop MapReduce中实现WordCount，包括自定义Partitioner调整Reduce任务数量，使用Combiner进行优化，以及自定义Comparator进行排序。通过创建Bean类实现多字段的比较和序列化，适用于复杂数据结构的统计和排序需求。

首先 map task 写一个继承Mapper 的类；

中间可能写一个分文件的一个partition 的类；（注意设置 reducetask 的数量）

中间还有可能写一个 combiner. 也是继承Reducer. 可用来优化

最后 reduce task 写一个继承Reducer 的类；

1. 简单的Wordcount; 使用普通的 hadoop 序列化数据类型就可以，Text, LongWritable;

2.实现排序，一般就是一行多个字段， order by 其中一个或者多个；

那么就要将这一行多个字段组成 Bean , 然后继承 WriteCompartor.

public class MySortBean implements WritableComparable <MySortBean>

实现方法有个compareTo. 返回1 或者-1 代表降序。

    @Override
    public int compareTo(MySortBean o) {
        // 1. 先第一列排序
        //返回0 表示 相同
        int i = this.word.compareTo(o.word);
        //2. 第二列排序
        if(i==0) //
        {
            return this.num-o.num;
        }
        return i;
    }

3. 还是多个字段，没有排序，只是sum 计算。如果计算一个，就回到wordcount。统计多列的话，那就又要 Bean 的概念。此时又要序列化。

所以这个Bean class 要实现Writable.（implements Writable）这个类。然后完成字段的序列化和反序列化。