MapReduce分布式计算框架

翊小宸

已于 2022-05-23 11:24:02 修改

阅读量777

点赞数

分类专栏：大数据文章标签： hadoop big data

于 2021-09-15 19:58:59 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45058912/article/details/120228690

版权

本文详细介绍了手写MapReduce的过程，包括Mapper和Reducer阶段的关键步骤，以及Job阶段的主要操作。讨论了Hadoop序列化与Java序列化的区别，并概述了MapReduce的执行流程，涉及到InputFormat切片、Shuffle机制、分区和排序规则。同时，文章还探讨了Combiner的使用场景和自定义OutputFormat的实现流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.描述一下手写MR的大概流程和规范

Mapper阶段:
我们要知道每个map任务,都会继承Mapper类, 我们先自定义WordCountMapper, 让其继承Mapper类。其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable>。接着我们需要重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)。然后我们按默认设置将数据一行一行读取出来,获取每一行数据并且按照分隔符(空格)将其切分。随即我们将数据以<key,value>的形式循环遍历输出。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
Reducer阶段
首先我们自定义WordCountReducer并让其继承Reducer类(其中Reducer有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountReducer<Text, IntWritable, Text, IntWritable>(由run()方法启动Reducer的任务))。然后我们需要重写reduce()方法, 设置一个初始化变量, 接着遍历当前相同key的一组values进行汇总,并累加求和。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
ps: reduce方法输出后是没有排序的
Job阶段
(1)驱动类,当前MR程序入口,核心操作是提交job
(2)获取配置信息以及获取Job对象(实例化任务)
(3)关联本程序的jar,设定运行jar类型
(4)关联Mapper的输入和输出类型
(5)关联Reducer的输入输出类型
(6)关联Mapper和Reducer的jar
(7)设置输入输出路径
(8)提交job

2. 如何实现Hadoop中的序列化, 以及Hadoop的序列化和Java的序列化有什么区别?

通过自定义bean对象实现序列化接口（Writable）
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
（3）重写序列化方法

@Override
public void write(DataOutput out

最低0.47元/天解锁文章