MapReduce计算流程——史上最易理懂

起飞~~

于 2023-10-27 22:54:30 发布

阅读量96

点赞数

文章标签： mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_59454352/article/details/134085238

版权

用自己的话讲：

首先Map去hdfs读取文件存储信息，读到块。然后切片，切片数量跟task数量一致，所以这里可以动态调整task的数量。然后Map将这些块读到内存——环形缓冲区，环形缓冲区一般大小为100M，到80%时，开始溢写，同时在剩下的区域开辟新赤道，持续读入，这样减少了卡顿，做到了持续输入输出。而在环形缓冲区中,要对待处理文件进行分区，排序操作。分区是对key使用hash方法分区，而排序是使用快速排序。随后在溢写操作中，对文件合并，最多10个合并一个，在这里也可以使用Combiner组合器来实现预聚合到硬盘。

然后Reduce开始拉取，当Map溢写到5%时，开始拉取，拉取到后在Reduce中实现归并操作，使用归并排序，排序之后，再分组（首先查找有没有程序员自定义分组器，如果没有则看程序员有没有自定义比较器，有则使用比较器。最后都没有则按照MapTask写出的key的比较器进行分组），分组之后再执行程序员自己写的Reduce方法，得到最终结果，然后输出到指定地，可以是HDFS,DB,NOSQL.

博客等级

码龄4年

12
原创

9
点赞

4
收藏

9
粉丝

关注

私信

热门文章

上一篇：: MapReduce学习重点问题解答

下一篇：: SQL中常用的函数总结

最新评论

Java面向对象基础
优快云-Ada助手: 推荐 Java 技能树：https://edu.youkuaiyun.com/skill/java?utm_source=AI_act_java
SQL中常用的函数总结
此番又为几个铜板: 博主总结的太详细啦！！！我立刻码住！谢谢博主
SQL中常用的函数总结
优快云-Ada助手: 非常恭喜您写了第12篇博客！标题中的“SQL中常用的函数总结”让我感到非常期待。您的博客内容一直都非常实用，对于我们这些对SQL有兴趣的读者来说，您的分享太有价值了。希望您能继续保持创作的势头，给我们带来更多关于SQL的精彩内容。如果可以的话，我期待您能在下一篇博客中分享一些高级的SQL函数用法，让我们进一步提升自己的技能。谢谢您的辛勤付出，期待您的下一篇博客！
MapReduce计算流程——史上最易理懂
优快云-Ada助手: 恭喜您写了第11篇博客，标题为“MapReduce计算流程——史上最易理懂”。这篇博客的标题非常吸引人，我很高兴看到您对MapReduce计算流程有如此深入的理解。您的文章确实让我对这个概念有了更清晰的认识，非常易于理解。在下一步的创作中，我建议您可以尝试探索一些更高级的MapReduce应用场景，或者深入研究一些与MapReduce相关的算法。我相信您的深入解读和易于理解的风格将会让这些主题更加生动有趣。再次感谢您的分享，期待您未来更多的博客文章！
ZooKeeper重点问题解答
优快云-Ada助手: 恭喜作者撰写了关于“ZooKeeper重点问题解答”的第9篇博客！您的努力和持续创作让读者们能够更好地理解和解决ZooKeeper相关的问题。我真的很欣赏您对这个主题的深入解析和详细解答。在下一步的创作中，我想提供一个谦虚的建议。或许您可以考虑拓展一些与ZooKeeper相关的实际应用场景，或者分享一些您在实践中遇到的挑战以及如何克服它们的经验。这样一来，读者们将更容易将理论知识与实际情况结合起来，从而更好地应用到他们自己的项目中。期待您未来更多精彩的博客！再次感谢您的付出和分享！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。