YARN的运行机制

最新推荐文章于 2024-01-12 14:38:46 发布

墨染百城

最新推荐文章于 2024-01-12 14:38:46 发布

阅读量990

点赞数

分类专栏： Hadoop 大数据框架文章标签： yarn hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mrbcy/article/details/62449729

版权

大数据框架同时被 2 个专栏收录

31 篇文章

订阅专栏

29 篇文章

订阅专栏

YARN是运算资源的调度系统。运算资源包括运行程序的jar包，配置文件，CPU，内存，IO等。使用了linux的资源隔离机制cgroup实现了CPU和内存的隔离。它的运行容器叫做container。每个container中包含了一定的CPU+内存。

docker，openstack等虚拟化框架都使用了cgroup。

首先，客户端启动后获取一个YARNRunner,它本质上是一个动态代理对象。它负责将任务提交到YARN集群中。

先上一个整体的流程图。

提交过程

YARNRunner会去找ResourceManager，申请提交一个Application，ResourceManager会返回一个Application资源提交路径hdfs://xxx/.staging以及job_id。

YARNRunner将资源上传到ResourceManager指定的HDFS目录中。包含job.split,job.xml.job.jar。然后通知ResourceManager，任务提交完成了。

运行过程

由于ResourceManager会接收很多程序，而计算资源是有限的。因此不能保证每个任务一提交就能运行，所以需要有一个调度机制。（调度策略包括FIFO，Fair，Capacity等。）

当Job提交成功后，ResourceManager把Job封装成一个Task。

NodeManager与ResourceManager通信时，会领取这个Task。

领取到Task后，NodeManager根据Task的描述，生成任务运行的容器container。并从HDFS上把任务需要的文件下载下来，放到container的工作目录中。启动MRAppmaster。

MRAppmaster请求ResourceManager分配若干个Container来启动MapTask。ResourceManager同样将Task放入队列中。

NodeManager与ResourceManager通信时，会领取这个Task。NodeManager会分配一个容器。

然后MRAppmaster会发送启动程序的脚本给NodeManager。MapTask就运行起来了。

MRAppmaster负责监管MapTask，如果MapTask失败了，MRAppmaster会申请再运行一个MapTask。

等到MapTask运行完毕之后，输出结果保存在container的工作目录下面。

MRAppmaster再申请容器运行ReduceTask。

ReduceTask运行起来以后，会去下载MapTask的输出结果，每个ReduceTask获取自己负责的那一部分。

ReduceTask执行完毕后，MRAppmaster会向ResourceManager注销自己，YARN会回收所有的计算资源。

总结

YARN现状

YARN只负责程序运行所需要资源的分配回收等调度任务，和MapReduce程序没有什么耦合。所以许许多多的其他的程序也可以在YARN上运行，比如说Spark，Storm等。

Hadoop中的JobTracker

Hadoop1中没有YARN，它使用JobTracker和TaskTracker。客户端提交任务给JobTracker，JobTracker负责启动MapTask和ReduceTask。

JobTracker知道我们的程序是怎么运行的，即JobTracker和MR程序是紧紧耦合在一起的。

JobTracker只有一个节点，要负责：

资源调度
应用的运算流程管理监控

所以负担很重，如果JobTracker挂了，所有的程序都不能运行了。

对比看来，明显是YARN的架构更好。

博客等级

码龄8年

187
原创

226
点赞

878
收藏

251
粉丝

关注

私信

热门文章

分类专栏

Mproxy项目实录 7篇
Java并发编程 2篇
Linux基础 5篇
运维 6篇
大数据框架 31篇
Java基础 28篇
自定义rpc框架 13篇
maven 1篇
TDD 5篇
书山有路 16篇
测试
软件测试的艺术 4篇
Hadoop 29篇
Ambari 1篇
Java并发编程 1篇
Python 15篇
Mproxy项目实录 7篇
爬虫 2篇
信息检索笔记 2篇
LeetCode 41篇
随笔 5篇
职场 4篇
Hive 11篇
算法 5篇
Scala 1篇
SQL练习 2篇
SQL学习 15篇
flume 1篇
管理软件 1篇

最新评论

【SQL练习】经典SQL练习题
大数据-: 19题跟21题有什么区别哇
【SQL练习】经典SQL练习题
weixin_43840217: 第42题，答案select *会报错，个人理解[code=sql] SELECT s1.sno, s1.cno, s1.degree FROM scores s1 INNER JOIN (SELECT s2.cno c, MAX(s2.degree) max FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=c and s1.degree=max; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 记录第33题，[code=sql] SELECT s1.* FROM scores s1 INNER JOIN (SELECT s2.cno cno , AVG(s2.degree) as avg FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=s3.cno and s1.degree<s3.avg; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 第28题，只找到了计算机系副教授“李诚”。根据题意，电子工程系的讲师“张旭”也应该被找到吧。[code=sql] SELECT t0.tname, t0.prof FROM teachers t0 WHERE t0.prof<>(SELECT DISTINCT t1.prof FROM teachers t1 INNER JOIN teachers t2 on t1.depart<>t2.depart where t1.prof=t2.prof); [/code]
【SQL练习】经典SQL练习题
Face_spider: 刚看到这个帖子,看评论都在说20题,好吧我也做出来了献丑了 select * from (select *,row_number() over(partition by cno order by degree desc) as rk from scores) t1 where rk != 1 and sno in (select sno from scores group by sno having count(cno) > 1);

大家在看

simsun.ttf && simsun.ttc 66

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。