Spark构建DAG（有向无环图）

原创

已于 2023-04-03 14:35:05 修改 · 4.6k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2022-07-06 21:20:04 首次发布

本文围绕Spark展开，介绍了RDD有向无环图的构建，其基于RDD算子对RDD进行变换，且采用延迟处理。还阐述了RDD有向无环图的拆分，将作业切分为任务和阶段。同时说明了DAGScheduler划分阶段、Task调度及执行的过程，包括任务状态上报机制。

文章目录

前言
一、构建RDD有向无环图
二、RDD有向无环图拆分
三、 DAGScheduler
四、 Task调度
五、 Task执行

前言

有向无环图（Directed Acyclic Graph, DAG）是一个图论数据结构。如果一个有向无环图从任意顶点出发经过若干条边都无法回到该顶点，则这个图是一个有向无环图。

一、构建RDD有向无环图

RDD(Resilient Distributed DateSets)弹性分布式数据集

Spark应用初始化并通过SparkContext函数读取输入数据生成第一个RDD后，后续操作就是通过RDD算子对RDD进行一次又一次的变换得到计算结果。因此，一个Spark应用可以看做一个由“RDD创建”到”一系列RDD转换操作“再到”RDD存储“的过程。在执行过程中，每个RDD自身是不可变的，每一次操作是将一个RDD转化为另一个新的RDD。为了完成完成转换过程，Spark会构建出一个RDD有向无环图。

每一个RDD都可以根据RDD有向无环图查找到自己父RDD的依赖，进而找到最原始的RDD。Spark是一个分布式计算系统，就不可以避免存在某个节点宕机、数据传输丢失等情况。当发生这些问题时，Spark采用的容错机制是RDD在RDD有向无环图上的依赖关系。当某个RDD出现问题，Spark根据依赖关系找到上级RDD重新计算即可以恢复该RDD。

Spark采用的是延迟处理或是惰性计算，当遇到行动算子时才会触发操作，将行动算子之前的所有算子操作形成一个有向无环图的作业（Job）提交到集群中申请作业处理。这样的好处是操作序列可以进行连续计算，减少中间结果存储空间。