Spark Core之Stage、Tank&Job划分

原创已于 2023-03-23 23:54:03 修改 · 920 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark

于 2021-08-12 21:36:16 首次发布

Spark 专栏收录该内容

20 篇文章

订阅专栏

本文深入解析Spark作业执行流程，涵盖Job的划分、DAGScheduler如何生成Stage、Task的划分原则以及WebUI中查看Stage和Task的情况。重点讨论了宽依赖与窄依赖对Stage划分的影响，并解释了Stage划分对于数据安全和并行度提升的重要性。

Stage的划分那么要想清楚RDD的依赖关系，可点击下面了解

《RDD的依赖关系》

窄依赖，父RDD的分区最多只会被子RDD的一个分区使用，
宽依赖，父RDD的一个分区会被子RDD的多个分区使用（宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区，这是shuffle类操作）

一、RDD的Job划分

任何一个Action算子就是一个job，因为每一个Action算子都会调用runjob方法

任务包括:ResultTask(最后一个阶段的任务) + ShuffleMapTask(非最后一个阶段)

二、RRD的Job生成和提交的四给阶段

四个步骤:

1,构建DAG
        用户提交的job将首先被转换成一系列RDD并通过RDD之间的依赖关系构建DAG,然后将DAG提交到调度系统;
        DAG描述多个RDD的转换过程，任务执行时，可以按照DAG的描述,执行真正的计算;
        DAG是有边界的:开始(通过sparkcontext创建的RDD)，结束 (触发action, 调用runjob就是一个完整的DAG形成了，一旦触发action,就形成了- -个完整的DAG) ;
        一个RDD描述了数据计算过程中的一个环节，而一个DAG包含多个RDD,描述了数据计算过程中的所有环节;
        一个spark application可以包含多个DAG,取决于具体有多少个action。
2，DAGScheduler将DAG切分stage (切分依据是shuffle) ,将stage中生成的task以taskset的形式发送给 TaskScheduler为什么要切分stage?
        一个复杂是业务逻辑(将多台机器上具有相同属性的数据聚合到一台机器上:shuffle)如果有shuffle,那么就意味着前面阶段产生结果后，才能执行下一-个阶段,下一个阶段的计算依赖上一个阶段的数据在同一个stage中，会有多个算子，可以合并到一-起，我们很难” 称其为pipeline (流水线,严格按照流程、顺序执行)

3，TaskScheduler 调度task (根据资源情况将task调度到Executors)

4，Executors接收task, 然后将task交给线程池执行。

三、Stage的划分

划分stage的过程:从最后一个RDD开始 ,调用递归算法查找该RDD的父RDD ,找到父RDD后开始遍历,判断父RDD和该RDD的依赖关系,如果是宽依赖,就把父RDD和前面所有RDD都划分一个stage ,如果是窄依赖,继续递归查找父RDD的父RDD ,递归的出口是直到找不到父RDD.最后把所有的RDD统一划分一个stage.

一个job有一个或多个Stage组成，一个Stage由一个或多个Task组成