Spark DAG Scheduler源码解析(一)

本文深入解析Spark中的DAGScheduler,包括其核心概念如Job、Stage和Task的关系,以及RDD血缘、Stage划分原则等内容。有助于理解Spark的任务调度机制。

目录

 

一、前言

二、学习DAG Scheduler的前提知识

2.2 Job

2.3  Stage

2.4 task

2.5 RDD血缘

2.6 RDD的血缘和Job的Stage

2.7 Spark中的stage

 


一、前言

坦白的说,DAG Scheduler是Spark的核心实现之一,概念内涵丰富,理解复杂。

二、学习DAG Scheduler的前提知识

DAG Scheduler作为Spark 作业计算过程中的调度器,涵盖了很多知识点例如RDD的血缘关系,Stage的划分,Stage的重复计算,Spark任务的错误重试机制,Spark计算的最优地址选择等问题,这些问题都会在第二章进行描述探讨。

2.2 Job

Spark 的一个计算任务,一次action操作会触发一个Job。

2.3  Stage

在Spark的计算过程中,每一个Job都可以看成是若干个stage组合形成。需要注意的是,组合形成Job的Stage可能不尽相同。

2.4 task

在Spark的计算过程中,每一个Stage都是由task组成,task是具体执行计算任务的实体,每一个task都会被发送到计算节点上进行计算。

通过对上面内容的描述,可以在下图绘制出Job,Stage,Task之间的关系,整体上是总分总的逻辑关系。

&nbs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大锤爱编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值