MapReduce源码理解

本文详细解析了Hadoop-1.0.4源码中的MapReduce框架,包括Mapper、Reducer类的继承关系及使用方法,以及Context类的作用。重点介绍了类之间的交互与运行原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  看了一下源码,还是记录一下。看到后面又忘了,又得回过头来看。先写一点MapReduce的,记录一下。
  将hadoop-1.0.4的源码导入到Eclipse中,有一个包是src/mapred,这个包里面包含了以前旧的mapreduce的接口和新的mapreduce抽象类,org.apache.hadoop.mapreduce是新的包,里面包括了Mapper,Reducer,Context,Partitioner,Job,RecordReader,RecordWriter等父类及其相关类。
  主要写一下类的继承关系以及大概的使用方法,参考了一些书,讲的是其运行原理,但是功夫尚浅,还没从代码层面理解框架,待日后再写。
  1. Mapper类

    先说Mapper类,要实现自己的Mapper类,就必须继承自Mapper类(不是抽象类),它的参数是

private RecordReader<KEYIN,VALUEIN> reader;
private InputSplit split;

public MapContext(Configuration conf, TaskAttemptID taskid,
                    RecordReader<KEYIN,VALUEIN> reader,
                    RecordWriter<KEYOUT,VALUEOUT> writer,
                    OutputCommitter committer,
                    StatusReporter reporter,
                    InputSplit split) {
    super(conf, taskid, writer, committer, reporter);
    this.reader = reader;
    this.split = split;
  }

方法有:
public InputSplit getInputSplit(){return split;}
KEYIN getCurrentKey(){return reader.getCurrentKey();}
VALUEIN getCurrentValue() {return reader.getCurrentValue();}
boolean nextKeyValue(){return reader.nextKeyValue();}
从这里可以看出MapContext类是Context类的具体的实现,只由Context的对象调用继承的属性和方法即可得到框架中的东西。从这四个方法可以得到它的分片信息、当前的键、当前的值、以及下一个键值对。这是通过上面属性中RecordRe 1. Reducer类
Reducer类是在Mapper类处理得到结果之后再进行处理的类,它里面的函数和Mapper类差不多,有四个函数和一个Context内部类(该类和Mapper类中的Context类是不同的):
setup(Context context) 在task运行之前调用,调用一次
reduce(KEYIN key, Iterable values, Context context)这个函数是对相同的键进行遍历处理。
cleanup(Context context)在task运行之后调用,调用一次
run(Context context);先调用setup函数,再调用reduce函数,最后调用cleanup函数,可以控制Reduce的运行,高级使用
public class Context
extends ReduceContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {
public Context(Configuration conf, TaskAttemptID taskid,
RawKeyValueIterator input,
Counter inputKeyCounter,
Counter inputValueCounter,
RecordWriter<KEYOUT,VALUEOUT> output,
OutputCommitter committer,
StatusReporter reporter,
RawComparator<KEYIN> comparator,
Class<KEYIN> keyClass,
Class<VALUEIN> valueClass
) throws IOException, InterruptedException {
super(conf, taskid, input, inputKeyCounter, inputValueCounter,
output, committer, reporter,
comparator, keyClass, valueClass);
}
}

从这里可以看出,Context可以获得框架中的东西,Context继承的是ReduceContext,下面介绍一下ReduceContext。
2. ReduceContext
该类也是继承自TaskInputOutputContext,它的构造函数和上面的构造函数是一样的,思想也和MapContext的差不多,里面通过函数获得下一个值,主要的函数有:
boolean nextKey(),
boolean nextKeyValue()
KEYIN getCurrentKey()
VALUEIN getCurrentValue()
也是ReduceContext已经实现好的,Context的对象可以直接调用。
5. Context
Context类有一个专门设计的继承关系,各个层级和框架的不同级别的类在打交道,下面再介绍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值