MapReduce中Shuffle过程整理

最新推荐文章于 2024-08-21 21:23:39 发布

mangoer_ys

最新推荐文章于 2024-08-21 21:23:39 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： mapreduce shuffle

本文链接：https://blog.youkuaiyun.com/mangoer_ys/article/details/45621457

Hadoop 专栏收录该内容

1 篇文章

订阅专栏

MapReduce的Shuffle过程包括Map端的Collect、Spill、Combine和Reduce端的Shuffle、Merge、Sort。Map端，数据经collect、排序、溢写到磁盘，再通过Combine合并。Reduce端，从Map Task获取数据，内存中合并相同key，然后排序。如果无Reduce Task，结果直接写入HDFS。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce中的Shuffle过程分为Map端和Reduce端两个过程。

Map端：

Map Task的过程主要由下面五步组成：Read --> Map --> Collect --> Spill --> Combine，其中Shuffle主要包括后面三步。

1.（Collect）在Map函数中调用collect（k.v），在collect中调用partitioner函数获取键值对分区号（partition），将三元组<key,value,partition>传给collect（）做处理。

2.（Spill）MapOutputBuffer内部使用一个环形缓冲区存储输出结果（环形缓冲区可以同时读写），当达到阀值时，将数据排序（先按partition排序，再按key排序）写到临时文件（本地磁盘）中。（环形缓冲区使得Collect阶段和Spill阶段可以同时进行）

3.（Combine）将所有的临时文件合并成一个文件，并生成索引文件。文件合并过程中，Map Task以分区为单位进行合并，让每个Map Task最终只生成一个数据文件，以避免同时打开大量文件和同时读取大量小文件产生的开销。

Reduce端：

Reduce Task的过程主要由下面五步组成：Shuffle --> Merge --> Sort --> Reduce --> Write，其中Shuffle主要包括后面三步。

1. （Shuffle）从每个Map Task上远程copy一片数据；并针对这片数据，若大小超过阀值，则写到磁盘上，否则放在内存中。

2. （Merge）对于从每个map端得到的文件在内存（该内存不仅仅是100M，而是JVM中堆的大小，因为此时不执行Reduce任务，JVM的内存可以全部让Merge使用）中合并，合并每个文件中key相同的key-value对。

3. （Sort）将所有的数据进行一次归并排序。

这其中有个问题：因为map的中间结果存储在本地磁盘上，如果一个作业中只有map没有reduce的话，最终的结果如何写到HDFS上？

OldOutputCollector根据作业是否包括Reduce Task封装了不同的MapOutputCollector实现，如果reduce task的数目为0，则封装的DirectMapOutputCollector对象直接将结果写到HDFS上作为最终结果，否则封装MapOutputBuffer对象暂时将结果写入本地磁盘以供Reduce Task进一步处理。