MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

本文介绍了MapReduce在YARN上的工作流程,包括应用程序管理器的启动、任务分配与资源请求。同时,文章讨论了文件切片与Map任务的关系,指出切片数取决于文件大小和blocksize设置,且每个切片对应一个Map任务。接着,文章详细阐述了WordCount的执行过程,包括Map任务的映射操作和Reduce任务的聚合操作。最后,重点解释了Shuffle阶段的作用,它是对数据进行分区、排序和网络传输,为Reduce任务做准备的关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 .MapReduce on yarn 流程

MapReduce
Map 映射 Reduce 聚合

在这里插入图片描述
mr on yarn的工作流程分为两步:

1.启动应用程序管理器,申请资源。
2.运行任务,直到任务运行完成。

mr on yarn的工作流程详细分为八步:

1.用户向Yarn提交应用程序(job app application),jar文件、sql;
其中包裹ApplicationMaster程序、启动ApplicationMaster的命令等等
2.资源管理器为该应用程序分配一个容器(Container),运行job的ApplicationMaster,并与对应的节点管理器(NodeManager)通信,要求它在这个容器中启动MapReduce应用程序管理器。
3.App Master向applications Manager注册,这样就可以在RM WEB界面查询这个job的运行状态
4.App Master采用轮询的方式通过RPC协议向RM申请和领取资源
5.App Master应用程序管理器申请到资源后,便与对应的节点管理器通信,要求启动任务。
6.节点管理器为任务设置好运行环境,包括环境变量、Jar包、二进制程序等,然后将任务启动命令写到另外一个脚本中,并通过该脚本启动任务(task)。
7.各个任务(task)通过RPC协议向App Master应用程序管理器汇报自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值