MapReduce的shuffle过程

最新推荐文章于 2024-08-21 21:23:39 发布

转载最新推荐文章于 2024-08-21 21:23:39 发布 · 794 阅读

文章标签：

#MapReduce的shuffle过程

Bigdatda-Hadoop1.0 专栏收录该内容

47 篇文章

订阅专栏

本文详细介绍了MapReduce中的shuffle过程，包括Map任务的输出处理、溢出机制、分区策略以及合并操作等内容。强调了combiner的作用，即通过合并相同key的值来减少数据传输量，从而提高整体效率。

MapReduce的shuffle过程

MapReduce的核心是shuffle,她对于mapreduce的效率起到了至关重要的作用，now,我把我对shuffle的理解过程简单介绍一下，如果有误还请指教阿。。

MapReduce的过程（针对一个map来说）：

每个Map在内存中都有一个缓存区，map的输出结果会先放到这个缓冲区当中，缓冲区有一个spill percent,这里默认是80%（可以手动进行配置），也就是说当输出到缓冲区中的内容达到80%时，就会进行spill（溢出）,溢出到磁盘的一个临时文件中，也就是说这80%的内容成为一个临时文件，这里还涉及到了一个partition的概念，一个临时文件里面是进行了分区的，并且分区的数量由reduce的数量决定，即不同的分区内容传给不同的reduce。当这80%的内容在溢出时，map会继续向那20%的缓冲中输出。插入一点，在缓冲区溢出到磁盘之前，会进行sort和combiner,然后才会写道磁盘中。这两个步骤很重要，尤其是combiner,它直接决定了MapReduce的效率。并且sort和combiner这两个处理发生在在shuffle的整个过程中。这样一个map执行下来，就会在磁盘上存储几个临时文件，然后会对这几个临时文件进行一个merge,合并程一个文件，这个文件中有n个partition,n是reduce的数量。说明一下：这些临时文件和合并的文件都是在本地文件系统上存储的。

每个Map输出这样一个文件，最后不同Map生成的文件按照不同的partition传给不同的reduce,然后reduce直接把结果输出到HDFS文件系统上了。

这个是官方的一个图：