Mapper类/Reducer类中的setup方法和cleanup方法以及run方法的介绍

最新推荐文章于 2022-06-10 08:28:27 发布

原创最新推荐文章于 2022-06-10 08:28:27 发布 · 8.4k 阅读

5 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

14 篇文章

订阅专栏

本文深入解析了Hadoop框架中Mapper和Reducer类的四个关键方法：setup、cleanup、run和map，详细阐述了每个方法的功能及作用，并强调了在实现自定义逻辑时如何利用这些方法。

在hadoop的源码中，基类Mapper类和Reducer类中都是只包含四个方法：setup方法，cleanup方法，run方法，map方法。

/**
   * Expert users can override this method for more complete control over the
   * execution of the Mapper.
   * @param context
   * @throws IOException
   */
public void run(Context context) throws IOException, InterruptedException {
      setup(context);
       try {
                 while (context.nextKeyValue()) {
               map(context.getCurrentKey(), context.getCurrentValue(), context);
               }
   } finally {
     cleanup(context);
   }
}

可以看出，在run方法中调用了上面的三个方法：setup方法，map方法，cleanup方法。其中setup方法和cleanup方法默认是不做任何操作，且它们只被执行一次。但是setup方法一般会在map函数之前执行一些准备工作，如作业的一些配置信息等；cleanup方法则是在map方法运行完之后最后执行的，该方法是完成一些结尾清理的工作，如：资源释放等。如果需要做一些配置和清理的工作，需要在Mapper/Reducer的子类中进行重写来实现相应的功能。map方法会在对应的子类中重新实现，就是我们自定义的map方法。该方法在一个while循环里面，表明该方法是执行很多次的。run方法就是每个maptask调用的方法。