MapReduce原理(二)

本文介绍了MapReduce分布式计算框架的优点,如可靠性、容错性和处理海量数据的能力,并详细解析了其工作流程,包括任务如何下发到各服务器以及map处理后的数据如何通过shuffle阶段分配给对应的reduce任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce 作为 分布式计算框架(在分布式集群中)
优:可靠、容错、海量数据处理
缺:慢(分成的map太多?)

在这里插入图片描述
任务如何下发到各服务器:

大数据进程:启动MapReduce程序的主入口(用户提交的MapReduce任务),内包含实际Map任务、实际Reduce任务,输入输出文件位置。
jobtracker:根据处理数据量,命令taskTracker启动相应数量Map和Reduce进程任务,管理整个作业生命周期内的任务调度与监控,全局唯一。负责指挥的就是它。
tasktracker:与DataNode同个地方,启动及管理Map与Reduce进程,实际干活的就是它。

jobTracker 主,唯一
tasktracker 从,多个

各服务器map处理后的数据如何合并 并给对应reduce:
shuffle:如何将相同的key的数据发给相同的reduce
1.map和reduce数量有jobtracker定的,所以分在哪个服务器的reduce的识别号,框架可知
2.shuffle 是框架的,汇总所有数据及key,将key与reduce识别号一一对应,并将汇总后的数据发给reduce可行(重点是如何对应)
3.hdfs是主从架构,reduce将结果写入各地方的文件,,可上传啊,相当于全知道了

shuffle 是发生在map后,reduce前的灵魂过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值