MAPREDUCE的JOB提交流程

最新推荐文章于 2022-04-24 19:06:02 发布

转载最新推荐文章于 2022-04-24 19:06:02 发布 · 386 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/skyyuan/p/9956713.html

MR 专栏收录该内容

0 篇文章

订阅专栏

本文详细解析了在Hadoop2.0版本中，YARN如何作为资源调度器接管MapReduce的资源管理和任务调度职责，介绍了从作业提交到执行的完整流程，包括ResourceManager的角色、ApplicationMaster的启动及Task的资源分配。

在hadoop1.0版本以前我们的Mapreduce是被当作资源调度和计算框架来使用的，成为了hadoop运行生态圈的瓶颈，所以在hadoop2.0版本以上引入了yarn的概念，使Mapreduce完全成为分布式计算框架，而Yarn成为了分布式资源调度。虽然mapreduce处理速度很慢，IO操作会很多，不过这是我们步入Spark的必经之路，也是了解大数据生态圈不可缺少的成分。

下面就是针对job提交，yarn所做出的反应。

（我们的jar包中包括了许许多多的信息，其中重要的是：Mapper、Reducer、ApplicationMaster）

1.将job提交给ResourcemManager（后面用RM代替），RM会给他分配一个jobID

2.RM会给客户端返回一个JobID和路径的信息

3.客户端根据这个信息，将jar包存储在HDFS中

4.提交job给RM，RM中存在FIFO机制，如果前面有正在运行的Job，则放入FIFO进行等待，直到轮到此Job

5.申请开启AM（ApplicationMaster），RM会找到一个NM（NodeManager）给他continer，用来启动AM，ND开启AM（其实5和6之间存在一种AM向RM注册的行为，这里不做太多讲解，只需懂基本流程即可）

6. AM向RM申请Task的执行资源，用来运行Task

7.RM根据AM的信息和每个节点的资源利用情况进行Task的资源分配

8.AM去每个Task所在的节点上通知NM去开启此continer

（后续一点步骤：

9.task启动会跟AM进行注册，AM时刻监控Task的运行情况，知道收到Task运行完成为止）

以上便是Mapreduce的job提交流程。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。