MapReduce分布式计算框架

本文详细介绍了手写MapReduce的过程,包括Mapper和Reducer阶段的关键步骤,以及Job阶段的主要操作。讨论了Hadoop序列化与Java序列化的区别,并概述了MapReduce的执行流程,涉及到InputFormat切片、Shuffle机制、分区和排序规则。同时,文章还探讨了Combiner的使用场景和自定义OutputFormat的实现流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.描述一下手写MR的大概流程和规范

Mapper阶段:
我们要知道每个map任务,都会继承Mapper类, 我们先自定义WordCountMapper, 让其继承Mapper类。其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable>。接着我们需要重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)。然后我们按默认设置将数据一行一行读取出来,获取每一行数据并且按照分隔符(空格)将其切分。随即我们将数据以<key,value>的形式循环遍历输出。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
Reducer阶段
首先我们自定义WordCountReducer并让其继承Reducer类(其中Reducer有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountReducer<Text, IntWritable, Text, IntWritable>(由run()方法启动Reducer的任务))。然后我们需要重写reduce()方法, 设置一个初始化变量, 接着遍历当前相同key的一组values进行汇总,并累加求和。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
ps: reduce方法输出后是没有排序的
Job阶段
(1)驱动类,当前MR程序入口,核心操作是提交job
(2)获取配置信息以及获取Job对象(实例化任务)
(3)关联本程序的jar,设定运行jar类型
(4)关联Mapper的输入和输出类型
(5)关联Reducer的输入输出类型
(6)关联Mapper和Reducer的jar
(7)设置输入输出路径
(8)提交job

2. 如何实现Hadoop中的序列化, 以及Hadoop的序列化和Java的序列化有什么区别?

通过自定义bean对象实现序列化接口(Writable)
(1)必须实现Writable接口
(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
(3)重写序列化方法

@Override
public void write(DataOutput out
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值