版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.youkuaiyun.com/u011734144/article/details/60773786
---------------------------------------------------------------------------------------------------------------------
一。首先看下InputFormat接口的代码
public interface InputFormat<K, V> {
InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
RecordReader<K, V> createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException;
显然,该接口主要负责实现两个功能:
1. InputSplit负责数据切割,即对输入的数据按照一定的方式切割,它定义了分割的长度和位置,分割出来的每个片段的长度决定了每个mapper任务的大小,而分割的位置决定了将由哪个服务器来执行这个任务,InputSplit按照长度切分出来的每个片段会分别交给一个mapper任务处理,而切分出来的位置决定了哪个机器来执行该mapper任务
2. RecordReader负责读取记录,即从各自要处理的数据片段中逐行读取数据,并以键值对的形式提交给mapper任务
所以框架为每个InputSplit的结果产生一个Map任务
二。OutputFormat接口代码如下
public interface OutputFormat<K, V> {
RecordWriter<K, V> getRecordWriter(FileSystem var1, JobConf var2, String var3, Progressable var4) throws IOException;
void checkOutputSpecs(FileSystem var1, JobConf var2) throws IOException;
}
OutputFormat 描述Map/Reduce作业的输出样式。
Map/Reduce框架根据作业的OutputFormat来:
- 检验作业的输出,例如检查输出路径是否已经存在。即如上的checkOutputSpecs方法
- 提供一个RecordWriter的实现,用来输出作业结果,即输出<key,value>对到输出文件。 输出文件保存在FileSystem上。TextOutputFormat是默认的 OutputFormat
————————————————
版权声明:本文为优快云博主「生活不只*眼前的苟且」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/u011734144/article/details/60773786
本文详细解析了Hadoop MapReduce框架中的InputFormat与OutputFormat接口的作用及其实现方式。InputFormat负责数据切割与读取记录,OutputFormat则用于检查输出规范并提供RecordWriter实现。
1704

被折叠的 条评论
为什么被折叠?



