MapReduce简单分析

最新推荐文章于 2024-08-10 16:30:06 发布

原创最新推荐文章于 2024-08-10 16:30:06 发布 · 412 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了Hadoop MapReduce的工作流程，包括数据从Map阶段写入环形缓冲区并进行分区，溢出写入磁盘的过程；以及Reduce端如何进行数据处理，包括排序、合并生成溢出文件及最终结果的生成。

在Map端
数据从Map中写入环形缓冲区，进行分区，分区时达到80%后溢出写入到磁盘，这几步同步进行

中间有个Shuffle过程

Reduce端

执行完Map 后到Reduce内存中，进行sort和merge，生成溢出文件，很多的溢出文件合并（一次合并10个），Reduce文件读取，然后做处理。

再详细一点：

1InputFormat从HDFS文件系统加载文件，然后将数据集逻辑上切分，切成多个Split
2RecordReader（RR）把分片的文件读取出来，然后输出成K-V的形式，这个结果会作为Map的输入
3Map是用户自己定义的处理逻辑（就是我们写的Map函数），经过4Map处理后会产生很多的K-V对。
5这些键值对交给shuffle处理，shuffle处理的步骤有分区，排序，归并。
6把处理后的结果给Reduce处理
7得到最终的结果，并把结果写入HSFS文件系统中

如下图所示：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。