MapReduce编程模型5——OutputFormat简介

最新推荐文章于 2025-01-23 23:09:37 发布

原创最新推荐文章于 2025-01-23 23:09:37 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #MapReduce

MapReduce 专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了Hadoop MapReduce框架中的OutputFormat组件，详细解释了其如何验证作业输出规范，提供RecordWriter实现以写入输出文件，以及通过OutputCommitter确保输出正确提交。文章还概述了OutputFormat的主要方法及其在MapReduce作业中的作用。

概述

OutputFormat描述了 Map-Reduce 作业的输出规范。

MapReduce 框架依赖作业的OutputFormat 完成如下工作：

1.验证作业的输出规范，比如检查输出目录是否已经存在；

2.提供RecordWriter的实现，用以将作业的输出写入到文件中，输出文件存储在 FileSystem 中。

OutputFormat

OutputFormat的定义如下

public abstract class OutputFormat<K, V> { 
  public abstract RecordWriter<K, V> 
    getRecordWriter(TaskAttemptContext context
                    ) throws IOException, InterruptedException;

  public abstract void checkOutputSpecs(JobContext context
                                        ) throws IOException, 
                                                 InterruptedException;

  public abstract 
  OutputCommitter getOutputCommitter(TaskAttemptContext context
                                     ) throws IOException, InterruptedException;
}

OutputFormat 有三个方法，getRecordWriter 方法用以为一个指定的task获取一个 RecordWriter对象；checkOutputSpecs 方法用以检查作业输出的合法性，这一点在上面已经提到，通常就是检查输出文件是否存在，如果存在则会抛出异常，这样输出就不会被覆盖；getOutputCommitter方法是获取此OutputFormat的输出提交器，该提交器用以确保输出被正确提交。

OutputFormat有许多的实现类，下面是其类继承结构图