hadoop中mapreduce原理过程

最新推荐文章于 2022-05-15 16:23:19 发布

lx来呀

最新推荐文章于 2022-05-15 16:23:19 发布

阅读量301

点赞数

CC 4.0 BY-SA版权

文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiongfengqq/article/details/85487103

本文深入解析MapReduce分布式计算模型的工作原理，包括Map和Reduce两个核心阶段的详细流程，以及数据处理、溢写、合并等关键操作。通过实例帮助读者理解MapReduce如何高效处理大规模数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在企业实习的过程中，有学习到hadoop，师傅也需要我们讲解mapreduce过程原理。我就把我的理解分享以下。

MR(分布式计算模型)分为2个部分Map,Reduce。

MR原理图

1. Map 过程。

1.1 从HDFS读取数据，默认一行产生一对<k,v>.

1.2 每次接受到一对<k,v>,调用一次map()方法进行计算，产生新的一对<k,v>，调用prattioner(),计算key的hash值然后根据reduce task数量取模计算，最后将<k,v> 及parttion值放置缓冲区中。.

1.3 在对缓冲区数据进行排序后，如果client设置了combine,进行combine(相当如mapper端的reduce)

1.4 当缓冲区数据达到80%时，启动spilt(溢写)。将数据刷入至硬盘当中。产生一个溢写文件。在溢写时，会对内容进行排序(对序列化的字节做的排序，根据不同的<k,v>发送到不同端的reduce,减少parttion索引记录)

(之所以设置80%默认，方便将数据刷入硬盘的时候，任然可以接受map产生的结果)

(分区->排序->combine)

1.5 当数据量很大的时候，会产生多个溢写文件，在map task完成时，会进行merge,合并为一个文件。

2.reduce过程

2.1 merge阶段，类似map阶段的merge,将来自不同map端的数据进行整合。copy过来的数值首先放到内存缓冲区中。merge主要方式为从内存到磁盘，与map的溢写类似，如果在此过程中设置了combiner,也是会启用的。产生众多的溢写文件。直到map端没有数据结束。然后进行磁盘到磁盘的merge方式生成最终的文件。

2.2最终文件成为combine的输入文件，进行reduce运算。产生结果

2.3.将产生的结果输出到HDFS上。

推荐

https://www.cnblogs.com/sharpxiajun/p/3151395.html#commentform

博客等级

码龄9年

5
原创

2
点赞

2
收藏

0
粉丝

关注

私信

热门文章

分类专栏

java基础 3篇
java web 2篇
大数据 1篇

上一篇：: javabean是什么

下一篇：: 浅谈对大数据技术的发展趋势

最新评论

子类为什么不能直接调用object的clone方法
boogie_liu: 好像是没有实现cloneable接口的原因
子类为什么不能直接调用object的clone方法
lx来呀回复想写一个bot发财: 我说错了，并不是protected带来的影响，而是object没有实现该方法。关于protected子类权限问题。 object的子类代码中可以访问object。而不是子类对象可以访问object的方法。比如B是A的子类，A有一个protected的方法one,B中代码可以访问A。但是如果有一个C类，在其中有B的对象b，b.one()就不对了
子类为什么不能直接调用object的clone方法
想写一个bot发财: 不是所有的类都是object的子类吗而且clone又是protected 为什么不能直接调用object的clone呢

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。