Hadoop中job.setNumReduceTasks（0）方法

最新推荐文章于 2024-05-14 05:11:36 发布

原创最新推荐文章于 2024-05-14 05:11:36 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

Hadoop 系列专栏收录该内容

6 篇文章

订阅专栏

本文探讨了在MapReduce中设置job.setNumReduceTasks(0)的影响，详细解释了有无Reduce阶段对Map结果输出方式的区别，以及不同OutputFormat如何影响最终输出。

job.setNumReduceTasks(0)唯一影响的是map结果的输出方式

  当job.setNumReduceTasks(0)时，即没有reduce阶段，此时唯一影响的就是map结果的输出方式

如果有reduce阶段，map的结果被flush到硬盘，作为reduce的输入；reduce的结果将被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。
如果没有reduce阶段，map的结果将直接被OutputFormat的RecordWriter写到指定的地方（setOutputPath），作为整个程序的输出。
而OutputFormat可以是普通的FileOutputFormat等，也可以是一个空的OutputFormat如NullOutputFormat。

  所以有无reduce和OutputFormat的多样性将组合出现以下情形（这个组合其实没什么意义，只是为了更加清楚而已）

有reduce
1.reduce的结果不需要输出到文件，如reduce里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
2.reduce的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。
无reduce
1 . map的结果需要不输出到文件，如map里直接将结果插入HBase，此时可以采用NullOutputFormat，当然就不需要setOutputPath。
2 . map的结果需要输出到文件，如采用FileOutputFormat，需要setOutputPath。