基于YARN的两种提交模式

YARN模式下的Spark任务执行流程

最新推荐文章于 2021-07-27 11:46:52 发布

原创最新推荐文章于 2021-07-27 11:46:52 发布 · 902 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

17 篇文章

订阅专栏

本文详细解析了YARN环境下Spark任务的两种提交模式：cluster与client模式的工作流程，包括从提交Application到完成任务的全过程。通过ResourceManager、ApplicationMaster、NodeManager等组件之间的交互，展示了资源申请、分配及任务执行的具体步骤。

yarn-cluster提交模式：

1，spark-submit提交，发送请求到ResourceManager请求启动ApplicationMaster；

2，ResourceManager分配container在某个nodemanager上，启动ApplicationMaster（相当于Driver）；

3，ApplicationMaster找到ResourceManager，进行反注册，请求container启动executor；

4，ResourceManager分配一批container用于启动executor；

5，ApplicationMaster连接其他NodeManager来启动executor，这里的NodeManager相当于Worker，executor启动后向ApplicationMaster反注册。

yarn-client提交模式：

1，spark-submit提交，在本地启动Driver进程，并发送请求给ResourceManager，请求ApplicationMaster。

2，ResourceManager接收到请求之后分配一个container在某个NodeManager（其实只是一个ExecutorLauncher，相当于ApplicationMaster）。

3，ExecutorLanucher向ResourceManager申请container，启动executor；

4，ResourceManager分配一批contianer然后ApplicationMaster直接连接启动NodeManager，用contianer的资源，启动executor；

5，executor启动后会反注册到本地的Driver上。

描述Yarn执行一个任务的过程？
1）客户端client向ResouceManager提交Application，ResouceManager接受Application
并根据集群资源状况选取一个node来启动Application的任务调度器driver（ApplicationMaster）
2）ResouceManager找到那个node，命令其该node上的nodeManager来启动一个新的
JVM进程运行程序的driver（ApplicationMaster）部分，driver（ApplicationMaster）启动时会首先向ResourceManager注册，说明由自己来负责当前程序的运行
3）driver（ApplicationMaster）开始下载相关jar包等各种资源，基于下载的jar等信息决定向ResourceManager申请具体的资源内容。
4）ResouceManager接受到driver（ApplicationMaster）提出的申请后，会最大化的满足
资源分配请求，并发送资源的元数据信息给driver（ApplicationMaster）；
5）driver（ApplicationMaster）收到发过来的资源元数据信息后会根据元数据信息发指令给具体
机器上的NodeManager，让其启动具体的container。
6）NodeManager收到driver发来的指令，启动container，container启动后必须向driver（ApplicationMaster）注册。
7）driver（ApplicationMaster）收到container的注册，开始进行任务的调度和计算，直到
任务完成。
补充：如果ResourceManager第一次没有能够满足driver（ApplicationMaster）的资源请求
，后续发现有空闲的资源，会主动向driver（ApplicationMaster）发送可用资源的元数据信息
以提供更多的资源用于当前程序的运行。