Spark构建DAG(有向无环图)

本文围绕Spark展开,介绍了RDD有向无环图的构建,其基于RDD算子对RDD进行变换,且采用延迟处理。还阐述了RDD有向无环图的拆分,将作业切分为任务和阶段。同时说明了DAGScheduler划分阶段、Task调度及执行的过程,包括任务状态上报机制。


前言

有向无环图(Directed Acyclic Graph, DAG)是一个图论数据结构。如果一个有向无环图从任意顶点出发经过若干条边都无法回到该顶点,则这个图是一个有向无环图。


一、构建RDD有向无环图

RDD(Resilient Distributed DateSets)弹性分布式数据集

Spark应用初始化并通过SparkContext函数读取输入数据生成第一个RDD后,后续操作就是通过RDD算子对RDD进行一次又一次的变换得到计算结果。因此,一个Spark应用可以看做一个由“RDD创建”到”一系列RDD转换操作“再到”RDD存储“的过程。在执行过程中,每个RDD自身是不可变的,每一次操作是将一个RDD转化为另一个新的RDD。为了完成完成转换过程,Spark会构建出一个RDD有向无环图。

每一个RDD都可以根据RDD有向无环图查找到自己父RDD的依赖,进而找到最原始的RDD。Spark是一个分布式计算系统,就不可以避免存在某个节点宕机、数据传输丢失等情况。当发生这些问题时,Spark采用的容错机制是RDD在RDD有向无环图上的依赖关系。当某个RDD出现问题,Spark根据依赖关系找到上级RDD重新计算即可以恢复该RDD。

Spark采用的是延迟处理或是惰性计算,当遇到行动算子时才会触发操作,将行动算子之前的所有算子操作形成一个有向无环图的作业(Job)提交到集群中申请作业处理。这样的好处是操作序列可以进行连续计算,减少中间结果存储空间。

二、RDD有向无环图拆分

一个有向无环图作业包含多个作业
Spark应用程序会生成多个作业提交到Spark集群中进行处理。作业并不是应用被拆分的最小计算单元,Spark集群收到作业后会对作业进行切分规则,进行相应调度。第一步将作业按照

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值