Hadoop MR &MRv2（YARN）编程模型

最新推荐文章于 2020-09-24 12:08:22 发布

Kuzury

最新推荐文章于 2020-09-24 12:08:22 发布

阅读量4k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：大数据 HADOOP YARN 文章标签： hadoop mapreduce 编程 MR编程模型 YARN编程模型

本文链接：https://blog.youkuaiyun.com/u010039929/article/details/74390396

本文详细介绍了Hadoop MapReduce 2.0（MRv2，即YARN）的编程模型，包括Map阶段（InputFormat、Mapper、Combiner、Partitioner）和Reduce阶段（Reducer、OutputFormat）。重点讲解了MapReduce的工作原理，如数据文件分片、Combiner的作用、Partitioner的逻辑，以及MapReduce作业的运行流程。此外，还讨论了数据本地性、推测执行机制以及常见的MapReduce应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 MapReduce编程模型

    MapReduce将作业的整个运行过程分为两个阶段：Map阶段和Reduce阶段
       Map阶段由一定数量的Map Task组成
         输入数据格式解析：InputFormat
         输入数据处理：Mapper
         数据分组：Partitioner
       Reduce阶段由一定数量的Reduce Task组成
         数据远程拷贝
         数据按照key排序
         数据处理：Reducer
         数据输出格式：OutputFormat

2 MapReduce工作原理

如下图所示：