Hadoop -- MapReduce相关原理超全汇总!!!

Alfie-

已于 2023-07-22 21:43:52 修改

阅读量92

点赞数

分类专栏： Hadoop 文章标签： hadoop

于 2023-07-21 22:11:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_55837533/article/details/131860786

版权

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

目录

二、MapReduce核心八步

三、MapReduce执行流程

一、概述

MapReduce是代码级别的, 没有角色划分, 直接通过Python或者Java操作它即可. MapReduce程序所需的数据源及结果数据的存储, 由 HDFS 来完成. MapReduce程序执行所需的资源等由 Yarn来调度的.

MR程序的两个弊端是什么? 1. 开发难度相对较大. # 通过Hive解决, 写SQL => 底层自动转MR程序. 2. 执行速度相对较慢. # 换计算引擎, 例如: Presto, Spark, Flink...

基于MapReduce构建分布式SQL引擎, 需要有哪些组件? 元数据管理服务(metastore): 负责管理元数据的. SQL解析器: 负责解析SQL, 将其转成MR程序, 运行并获取结果, 然后返回.

二、MapReduce核心八步

三、MapReduce执行流程

1. MR程序分为MapTask阶段和 ReduceTask阶段, 且:
1个切片 = 1个Block块 = 1个MapTask任务 = 1个分好区, 排好序, 规好约的文件.
1个分区 = 1个ReduceTask任务 = 1个结果文件.
2. 先对文件切片, 每个片的大小默认和Block块大小一致(即: 128MB), 且每个切片的数据会交由1个MapTask任务来处理.
3. MapTask任务采用逐行的方式从切片中读取数据, 逐行处理, 且会将处理后的数据放到环形缓冲区(默认大小:100MB, 溢写比:0.8)
4. 当环形缓冲满(80MB)的时候, 会触发溢写线程(spill), 对该部分数据做分区, 排序, 规约的操作, 然后存储到磁盘上(小文件)
5. 对上述的小文件进行合并(默认: 10个一合并), 获取最终的文件, 即: 1个MapTask = 1个分好区, 排好序, 规好约的文件.
6. 当MapTask任务执行结束后, ReduceTask会开启1个拷贝线程, 从各个MapTask的结果文件中, 拷贝属于自己的数据(根据分区编号识别).
7. ReduceTask对数据进行合并, 排序的操作, 获取最终结果数据.
8. ReduceTask将处理好的结果数据写到磁盘文件中, 1个ReduceTask = 1个结果文件, 至此, MR程序执行结束.

总结

以上就是今天的内容，本文介绍了MapReduce的相关原理.

博客等级

码龄4年

19
原创

1
点赞

10
收藏

0
粉丝

关注

私信

热门文章

分类专栏

Spark 3篇
Python 5篇
Hadoop 3篇
Hive 4篇
MySQL 1篇
Linux 2篇

展开全部收起

上一篇：: Hadoop -- HDFS原理超全总结!!!

下一篇：: Hadoop -- Yarn原理总结(重要!!!)

最新评论

Linux基础命令
优快云-Ada助手: 恭喜您开始博客创作！标题为“Linux基础命令”是一个很好的起点。Linux基础命令是我们在使用Linux系统时必须要掌握的重要基础知识，对于初学者来说尤为重要。接下来，我建议您可以进一步拓展这个主题，例如介绍一些常用的Linux命令及其应用场景，或者分享一些实用的技巧和注意事项。期待看到您更多关于Linux的精彩文章！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Linux Shell脚本
优快云-Ada助手: 非常感谢您的分享，标题和摘要给人一种简洁明了的感觉。您对Linux Shell脚本的知识进行了很好的总结，对读者来说一定非常有帮助。希望您能继续坚持创作，分享更多关于Linux脚本的知识。除了您已经提到的知识模块，还有一些扩展知识和技能可以进一步探索。比如，您可以深入了解Linux Shell脚本的条件判断和循环语句，以及如何使用Shell脚本进行文件处理和目录操作。此外，学习如何编写可重用的Shell函数和脚本可以提高工作效率。在掌握基本的Shell脚本知识后，您还可以学习Shell脚本的高级特性，如正则表达式的运用、命令行参数的解析和处理以及与其他编程语言的交互等。这些扩展知识和技能可以让您在使用Linux Shell脚本时更加灵活和高效。再次感谢您的分享，期待您未来更多有关Linux脚本的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
MySQL简介及基础
优快云-Ada助手: 恭喜您写了第三篇博客！标题为“MySQL简介及基础”，内容看起来很有意思。我很高兴看到您对MySQL的兴趣，并分享了一些基础知识。不过，我想提供一些建议，希望能帮助您在下一篇博客中更进一步。您可以考虑添加一些实际案例或者示例代码，帮助读者更好地理解MySQL的应用。此外，您还可以讨论一些高级话题，如索引优化或性能调优等，以拓展读者对MySQL的知识。期待看到您接下来的创作！加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Hive SQL --- DDL(数据定义)语句
优快云-Ada助手: 恭喜您写了第四篇博客！标题为“Hive SQL --- DDL(数据定义)语句”，非常有深度和实用性。您对Hive SQL的数据定义语句进行了详细的介绍，让读者能够更好地理解和运用这些语句。在下一步的创作中，我建议您可以进一步探索Hive SQL的其他方面，比如DML(数据操作)语句或者优化技巧等，这将为读者提供更多的学习价值。谢谢您的分享，并期待您更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
HiveSQL --- DML(数据操作)语句
优快云-Ada助手: 恭喜您写了第5篇博客！标题为“HiveSQL --- DML（数据操作）语句”，非常棒的主题选择。您的博客内容对于熟悉HiveSQL的读者来说一定非常有价值。在接下来的创作中，或许可以考虑探讨一些高级技巧或者实用案例，帮助读者更深入地理解和应用HiveSQL。再次感谢您的辛勤创作，期待您的下一篇博客！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。