详解MapReduce的运行原理以及如何运行在yarn上

本文详细介绍了MapReduce在YARN上的运行流程,从Client提交应用到ResourceManager,再到ApplicationMaster启动并管理任务,最后是任务的执行过程,包括Map、Shuffle、Reduce和Output阶段。MapReduce程序中,数据以键值对形式流转,重点在于Map和Reduce函数的编写。在YARN上,MapReduce任务经历了容器的分配、任务调度和监控,确保了大数据处理的高效执行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.MapReduce运行Yarn上详解

(1)Client向Yarn主节点RM提交应用 bin/yarn jar MainClass args
(2)RM在某个NM节点上启动一个Container运行AppMaster,运行应用的管理者
(3)AppMaster向RM请求资源,为了运行MapReduce中所有的Task,RM将分配NM是哪个资源,并且告知AppMaster
(4)AppMaster联系NM,启动Container中相关Task(Map Task和Reduce Task)
(5)运行的Task会实时的向AppMaster进行汇报,永不监控整个应用。 (6)当所有Task(Reduce
Task)运行完成,appMaster告知RM,销毁AppMaster (7)RM给Client相应

用一张图来表达:
在这里插入图片描述

MapReduce的运行原理

MapReduce编程

工程导入
HDFS API
MapReduce处理数据流程

在整个MapReduce程序中,所有的数据的流程流式都是键值对(Key-value)
Input -> Map->shuffle->Reduce ->Output
(1)针对于Inp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值