三、MapReduce学习

最新推荐文章于 2025-08-15 12:37:27 发布

转载最新推荐文章于 2025-08-15 12:37:27 发布 · 54 阅读

·

0

·

文章标签：

本文介绍了MapReduce编程模型的工作原理及其实现流程。包括Mapper如何分解任务、Reducer如何汇总结果，以及Shuffler的作用等关键步骤。同时，还探讨了更复杂的编程模型，如如何按时间范围分配Reduce任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReducer是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（化简）"

一、Mapper

1、Mapper负责“分”，把复杂的任务分解为若干个简单的任务执行

2、简单的任务分成：a，数据或计算规模对于原任务要大大缩小。b，就近计算，即分配到所需数据节点进行计算。c，这些已分配好的任务彼此间没有依赖关系。

二、Reducer

1、对于map阶段的结果进行汇总

2、reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺省值为1，用户可以覆盖

三、Shuffler

四、编程模型

这是一个气象的例子mapreduce的过程

具体的流程：

a，首先我们把相关的文件拷贝到hadoop集群里面去，此时hadoop就会把这个大文件分成很多块，分别放在不同的节点里面。

b，做一个map函数，map函数可以被jobtracker进程分配到各个节点里面去运行，然后对我们的原始数据进行抽取，此例子抽取出年份和气温，此例子中只要的本地的数据即可完成任务，并能不需要在其他的节点里面去取数据。

c，通过shuffle进行重新切分和组合，简化reducer过程，这个步骤可以没有

d，之后经过reduce函数，将上一步合并的表通过reduce函数，找出每一行的最大值，输出到hdfs中

五、复杂的编程模型

复杂的编程模型，可能一个reduce承受一个范围里面的reduce任务，比如说一个reduce承受的是1930-1960年的，另外一个reduce承受的是1961-2005年的，然后分别做reduce，最后输出到hdfs中

六、mapreduce工作机制剖析

来自为知笔记(Wiz)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。