MapReduce工作流程+Shuffle机制

小刘鸭!

已于 2024-12-24 18:42:23 修改

阅读量509

点赞数 9

CC 4.0 BY-SA版权

文章标签： mapreduce 大数据 hadoop

于 2024-12-24 18:41:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lx104921/article/details/144650804

一、Mapreduce工作流程

（1）数据切片Split。数据切片数决定maptask并行度，默认情况下，一个切片大小=块大小。切片不是针对整体数据集，而是针对每一个文件单独切片，所以会有小文件问题（CombineTextInputFormat可用于小文件过多的场景，可以将多个小文件在逻辑上划分到一个切片中）。

（2）map。每个maptask并行执行，调用map方法对数据进行业务逻辑处理，并输出kv键值对。

（3）shuffle。shuffle过程从map方法输出outk outv键值对开始，键值对会被写入到环形缓冲区中，同时记录该条数据的分区信息（环形缓冲区一半记录数据的元数据信息，一半记录真实数据信息）当环形缓冲区写到80%的时候，环形缓冲区开始反向写入数据，并且已写入的80%数据开始溢写到磁盘（在真正写入磁盘之前，会在内存中首先按照key进行快速排序），一个mapTask可能会有多个溢写文件，这些文件在进入reduce之前，还会进行归并排序成一个大的溢写文件（如果有combiner，会在这先进行部分聚合）。reduceTask会从不同的mapTask主动拉取自己分区的数据，并对这些来自不同mapTask的数据再次进行归并排序，合并成一个大的文件，到这里shuffle阶段就结束了，之后就是调用reduce方法完成最终的聚合操作了。

（4）reduce。调用reduce方法，完成最后的逻辑聚合。

二、MapTask工作机制

一个MapTask总体上包含read、map、collect、溢写、merge五个阶段。

（1）read阶段。读取数据。

（2）map阶段。调用map方法处理输入的kv键值对。

（3）collect阶段。将map计算结果进行收集，写入到环形缓冲区。

（4）溢写阶段。环形缓冲区达到80%时会进行溢写，注意溢写前会先进行快排。

（5）merge阶段。一个maptask的多个溢写文件进行归并，形成一个大的溢写文件。

三、ReduceTask工作机制

一个ReduceTask总体上包含Copy、Sort、reduce三个阶段。

（1）Copy阶段。从不同的Maptask主动拷贝自己分区的数据文件。

（2）Sort阶段。对来自不同maptask的文件进行归并排序，整合为一个文件。

（3）reduce阶段。调用reduce方法，按照聚合逻辑进行聚合运算。

四、Shuffle机制

map方法结束到reduce方法之前的过程都属于shuffle过程。shuffle过程的理解主要就是三次排序过程（一次快排，两次归并）。

（1）一个maptask在溢写每个文件到磁盘前，都会在内存中对不同的分区内部进行快排，保证了每个溢写文件内部的分区内有序

（2）一个maptask可能会有多个溢写文件，每个溢写文件都划分了分区且分区内有序，这些溢写文件会进行归并排序合并成一个大的溢写文件，保留分区且分区内有序

（3）reduceTask会主动从不同的maptask拉取自己分区的数据，从不同maptask拷贝的文件在进入reduce方法之前还会进行一次归并排序。

五、部分调优参数

（1）shuffle中的缓冲区大小会影响溢写次数，缓冲区越大，溢写次数越少，磁盘的io越少，执行速度越快。缓冲区大小可以通过mapreduce.task.io.sort.mb参数进行调整。

博客等级

码龄4年

41
原创

391
点赞

251
收藏

238
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 数据库的两种存储引擎：MyISAM与InnoDB的对比

下一篇：: Hadoop组成概述

最新评论

MySQL 8.0 新特性 —— 窗口函数详解
优快云-Ada助手: 恭喜您撰写出了第14篇博客，内容围绕MySQL 8.0新特性窗口函数进行了详细解说，让读者受益匪浅。希望您能继续保持创作的热情和耐心，为大家带来更多有价值的内容。下一步建议可以考虑深入探讨数据库优化技巧或者结合实际案例进行分析，让读者更好地理解和运用知识。期待您更多精彩的作品！
MySQL 8.0 新特性 —— 窗口函数详解
优快云-Ada助手: 恭喜您发布了第14篇博客，“MySQL 8.0 新特性 —— 窗口函数详解”，内容十分精彩！窗口函数是一个很有深度的主题，您的详细解读让读者受益匪浅。希望您能继续保持创作热情，探索更多MySQL 8.0的新特性，或者可以考虑结合实际案例进行分析，让读者更好地理解和运用这些新特性。期待您的下一篇博文！
Decimal模块对dataframe列进行四舍五入
优快云-Ada助手: 亲爱的作者，恭喜您撰写了这篇关于Decimal模块对dataframe列进行四舍五入的博客！您的分享让我受益匪浅。希望您能继续保持创作的热情，分享更多关于数据处理的技巧和经验。或许下一步可以考虑分享如何利用Decimal模块进行数据舍入的高级技巧，或者探讨其在其他数据处理领域的应用。期待您更多精彩的文章！
mysql中的group_concat函数用法
优快云-Ada助手: 恭喜您写了第12篇博客！标题“mysql中的group_concat函数用法”非常吸引人。您对mysql的函数用法有着深入的了解和研究，这让我非常欣赏。希望您能继续保持创作的热情和努力，分享更多有关数据库的知识。作为下一步的创作建议，我想提议您可以探索一些高级的mysql函数用法，或是介绍一些在实际项目中常用的数据库优化技巧。这些内容会对读者来说非常有价值，也对您自身的技术提升有很大帮助。再次恭喜您，期待您更多精彩的博客！
mysql 计算字符串长度方法 char_length(str) 和 length(str)
优快云-Ada助手: 恭喜你写了这篇关于mysql计算字符串长度方法的博客，内容很详细，对读者很有帮助。不过我觉得下一步可以尝试写一些实际应用场景，比如在实际开发中如何选择合适的字符串长度方法，或者结合其他函数进行更复杂的数据处理等方面的内容，这样可以让读者更好地理解并应用这些方法。希望你能继续保持创作，加油！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。