DAGScheduler之Job的提交划分Stage

Spark DAGScheduler：Stage划分详解

最新推荐文章于 2025-03-20 21:22:34 发布

原创

最新推荐文章于 2025-03-20 21:22:34 发布 · 848 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #DAGScheduler

本文深入解析Spark的DAGScheduler如何将Job划分为Stage，通过源码分析`getOrCreateParentStages`、`getShuffleDependencies`、`getOrCreateShuffleMapStage`和`getMissingAncestorShuffleDependencies`等关键步骤，结合实例展示了Stage的创建过程和最终划分结果。

整体流程图

在这里插入图片描述

源码分析 spark 2.3

getOrCreateParentStages 创建所有祖先Stage

/**
   * Get or create the list of parent stages for a given RDD.  The new Stages will be created with
   * the provided firstJobId.
   */
  private def getOrCreateParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
    // getShuffleDependencies 获取RDD的第一层直接宽依赖
    getShuffleDependencies(rdd).map { shuffleDep =>
      //getOrCreateShuffleMapStage 创建rdd对应的所有祖先Stage
      getOrCreateShuffleMapStage(shuffleDep, firstJobId)
    }.toList
  }

getShuffleDependencies 获取RDD的第一层直接宽依赖

  /**
   * Returns shuffle dependencies that are immediate parents of the given RD

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿武z

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark DAGScheduler源码分析系列之三: Job提交&Stage划分&提交

进击的数据小白

10-25

479

概述 spark主程序中当遇到action算子的时候，就会提交一个job。一个job通常包含一个或多个stage，各个Stage之间存在着依赖关系，下游的Stage依赖于上游的Stage，Stage划分过程是从最后一个Stage开始往前执行的，最后一个Stage的类型是ResultStage。ResultStage可以使用指定的函数对RDD中的分区进行计算并得到最终结果。本文...

[Spark源码剖析] DAGScheduler划分stage

Bbbbbbbbbbbbig data~

08-05

1939

本文基于Spark 1.3.1 先上一些stage相关的知识点： DAGScheduler将Job分解成具有前后依赖关系的多个stage DAGScheduler是根据ShuffleDependency划分stage的 stage分为ShuffleMapStage和ResultStage；一个Job中包含一个ResultStage及多个ShuffleMapStage 一个stage包含多个tasks

参与评论您还未登录，请先登录后发表或查看评论

DAGScheduler源码分析stage划分算法，task最佳位置计算算法

Smart_cxr的博客

07-24

541

在DAGScheduler类中的HandleJobSubmitted是job调度的核心入口进入了newStage（）方法它会创建一个stage对象进入submitStage（）方法进入getMissingParentStages方法（）进入submitWaitingStages（）方法 stage划分算法总结 1，从finalStage倒推 2，通过宽...

[Spark源码解析]DAGScheduler划分stage

weixin_43637653的博客

11-19

361

#[Spark源码解析]DAGScheduler划分stage ##注意： 1，DAGScheduler将Job分解成具有前后依赖关系的多个stage 2，DAGScheduler是根据ShuffleDependency（宽依赖）划分stage的, 3，stage分为ShuffleMapStage和ResultStage；一个Job中包含一个ResultStage及多个ShuffleMapStag...

Spark2.3.2源码解析：9.调度系统 DAGScheduler 之 Stage 划分源码详解

张伯毅的专栏

12-22

8792

Stage划分的时候，大家应该都知道是从最后一个stage向根据宽窄依赖，递归进行stage划分。但是代码里面涉及的逻辑复杂。毕竟涉及到相互递归调用。让人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文专门用一篇文章详细论述DAGScheduler 的 stage 划分流程为了更容易理解，本文采用 debug模式+实例+源码的方式进行讲解首先写一个WordCount代码（这个代码，为...

DAGScheduler 是如何划分 Stage 的？

Shockang的博客

06-29

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文如何合理划分 Stage ，并确定 Task 的类型和个数? 一个直观的想法是将前后关联的 RDDs 组成一个 Stage ，每个 Stage 生成一个 Task 。这样虽然可以解决问题，但效率不高。除了效率问题，这个想法还有一个更严重的问题:大量中间数据需要存储。对于 task 来说，其执行结果要

DAGScheduler 和 TaskScheduler 的关系

路漫漫其修远兮，吾将上下而求索

12-01

5360

DAGScheduler 和 TaskScheduler的联系让我们看看这个图， 1.[Applicatio 1] Driver（代表一个Application） 2. [Job ==>1] 在SparkContext的创建过程中，sc会创建DAGScheduler和TaskScheduler，DAGScheduler主要对application划分stage，创建一批task放到taskset

Spark 源码解析 : DAGScheduler中的DAG划分与提交

听风居士

07-20

6639

一、Spark 运行架构 Spark 运行架构如下图：各个RDD之间存在着依赖关系，这些依赖关系形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG，进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分,DAGScheduler基于每个Stage生成TaskSet,并将Ta

Spark中job、stage、task的划分+源码执行过程分析

热门推荐

hjw199089的博客

09-11

1万+

job、stage、task Worker Node：物理节点，上面执行executor进程 Executor：Worker Node为某应用启动的一个进程，执行多个tasks Jobs:action 的触发会生成一个job, Job会提交给DAGScheduler,分解成Stage, Stage:DAGScheduler 根据shuffle将job划分为不同的stage，同一个sta

Elastic-job支持基于有向无环图（DAG）的作业依赖技术方案

bao2901203013的专栏

04-10

1663

Elastic-job是当当网架构师基于Zookepper、Quartz开发并开源的一个Java分布式定时任务，解决了Quartz不支持分布式的弊端。Elastic-job除了支持单个作业按照规定的时间触发外，还可以将多个作业通过有向无环图（DAG）的方式生成依赖关系，然后按照DAG中的依赖关系依次调度执行这些作业。下面说一下实现这个功能的技术方案。作业的定义假设在一个Elastic-job集群中，有三个作业A，B，C。它们的依赖关系依次是A-->B-->C。每个作业都有...

Spark中的DAG

shuijing_dong的博客

03-20

324

Job是DAG中的一个个子任务，Action是返回值不是rdd的算子（行动算子），当一个Action开启时，其之前的所有rdd依赖链条就会开始执行，进而产生一个DAG，所以Action也可以说是一个触发开关，一个Action会产生一个DAG图。1个Application中可以有多个Job，每一个Job中包含一个DAG，同时每一个Job都是一个Action产生的。1个Action会产生一个DAG，且会在程序的运行过程中产生一个Job，而一个Action会产生一个Job（一个应用程序内的子任务）

Hive stage划分

初心江湖路的博客

10-22

8665

若想知道Hive stage是怎么划分的，需要对Hive的架构有些了解，下面通过一张图来展示本文关心Hive是怎么划分stage的，而这一部分主要跟Compiler有关，所以我们先看看Compiler Parser：解析器，解析查询语句，解析成解析树。 Semantic Analyser：语法分析器，将解析树转换成内部查询表示。对列名、类型做检查，类型转换、隐式转换也在这一阶段进行，这一步之后...

hive stage job等划分

Jomly Kellenda的博客

03-19

960

1.通过explain可以清晰的看到stage划分。常见的是各个算子（join groupby orderby 等有shuffle）或者是一些filter where等。 2.基于上面的1就可以划分出stage。但是有些stage并不会执行，或者说经过优化器后的filter where会在其他stage里进行。这样，有些stage就是空的stage。 3.基于stage划分，如何确定job数量（总数就是stage数量）。主要是看哪些stage会执行。只有需要执行的stage才会提交yarn，生成具体的j

Hive 的Stage如何划分？

日常分享数据分析开发、编程语言内容

02-27

924

Hive 的Stage如何划分？

Spark划分Shuffle依赖以及创建Stage的流程

吟啸徐行

04-08

3368

博客为笔者学习过程中，自我的理解和总结，难免存在错误，如果给您造成困扰请原谅，同时希望指点迷津上一篇博文介绍了Spark提交作业的流程以及作业是如何被触发在集群中运行的，答案便是：action算子中调用sparkContext.runJob方法触发执行的，当我们执行rdd的action算子时候，这时候就会调用sparkContext的runJob方法，在runJob方法中完成调用dag

Spark源码分析之调度框架详解

Haiwi-Song

06-13

1139

文章目录原理概述源码分析Job提交Stage划分Task提交Executor端运行Task Spark的调度框架分为资源调度和任务调度。Spark的资源调度是基于Yarn实现的，包含Driver和Executor资源的申请等，详细过程见博文 Spark源码分析之AM端运行流程（Driver）和 Spark源码分析之CoarseGrainedExecutorBackend运行流程（Executor）；本文主要讲述Spark任务调度框架的原理和源码分析。原理概述由于 Spark Scheduler内部原理

我和spark有个约会（1）-Spark中的stage的划分原理

Samaritan_H的博客

01-09

1071

我和spark有个约会（1）了解DAGScheduler 阶段对stage的划分原理 spark宽窄依赖 narrow dependencies:child rdd只依赖于parentrdd[s]的部分固定的partition wide dependencies:child rdd 每个partition 都依赖于parent rdd[s] 的全部partition（也称之为shu

spark2.2.0中stage划分的源码解析

qq_34896163的博客

01-18

974

这里主要讲解的是stage的划分。stage的划分工作是在DAGScheduler中完成的，在DAGScheduler中会将一个job根据宽窄依赖划分为多个stage。下面会详细介绍stage的划分过程。 1.首先你需要有一个spark2.X源码，因为你可以在源码的基础上进行注释，方便你后期的学习。双击shift->输入RDD 2.进入到RDD的源码，你会发现我们调用的spar...

大数据开发之Hive优化篇8-Hive Job优化

只是甲的博客

06-17

9614

备注: Hive 版本 2.1.1 文章目录Hive job优化概述一.并行执行二.本地执行三.合并输入小文件四.合并输出小文件五.控制Map/Reduce数5.1 控制Hive job中的map数5.1.1 合并小文件，减小map数5.1.2 适当增加map数5.2 控制hive任务的reduce数参考 Hive job优化概述实际开发过程中，经常会遇到hive sql运行比较慢的情况，这个时候查看job的信息，也是一直在运行，只是迟迟的不出结果。可以从如下几个方面来优化hive sql的job:

job stage task 的划分