Spark On Yarn彻底解密

本文深入解析Hadoop YARN的运作机制,并详细介绍了Spark on YARN的两种运行模式——Cluster和Client。在Cluster模式下,Driver位于ApplicationMaster进程中,而Client模式下Driver运行在提交程序的客户端。此外,文章还提到了Spark on YARN的最佳实践,包括配置建议和日志查看方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark on yarn 彻底解密

本期内容:

   1、Hadoop yarn解密

   2、Spark on yarn 解密

一、Hadoop Yarn 解析

   1、Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark,MapReduce、Storm等;

Yarn有两个主体对象,一个是ResourceManager,负责集群的资源管理,二是Node Manager管理节点的资源,并向ResourceManager汇报每台机器的资源使用情况,继而Yarn可以知道整个集群的资源使用情况,ResourceManager就是整个集群的Master,知道具体的节点启动具体的进程,不会主动到具体机启动具体进程,由NodeMaster启动相应的(ExecutorBackend)进程;

        APP Mastr就是当前节点的Master,具体资源就是MEN和CPU等,Container封装了MEN和CPU,它是一个个的JVM虚拟机,APPMstr(负责作业运行,相对于Driver)和Container的关系就是项目经理和员工的关系;

       Container的启动是由NodeManager启动,Container要向Nodemanage汇报资源信息,Container要向App Mstr汇报计算信息。

 3、Client端向ResourceManager提交Application,ResourceManager接收应用并根据集群资源状况决定在具体某个Node上来启动当前提交的应用程序的任务调度器Driver(ApplicationMaster),然后命令具体的某个Node上的资源管理器NodeManager来启动一个新的JVM基础运行程序的Driver部分,当ApplicationMaster启动的时候会下载当前Application相关的Jar等各种资源并基于此决定向ResourceManager申请资源的具体内容(例如需要多少个Container,和Container的配置),ResourceManager接受到ApplicationMaster的资源分配的请求后会最大化的满足资源分配的请求,并把资源的元数据信息发送给ApplicationMaster,Appli

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值