目录
一、前言
坦白的说,DAG Scheduler是Spark的核心实现之一,概念内涵丰富,理解复杂。
二、学习DAG Scheduler的前提知识
DAG Scheduler作为Spark 作业计算过程中的调度器,涵盖了很多知识点例如RDD的血缘关系,Stage的划分,Stage的重复计算,Spark任务的错误重试机制,Spark计算的最优地址选择等问题,这些问题都会在第二章进行描述探讨。
2.2 Job
Spark 的一个计算任务,一次action操作会触发一个Job。
2.3 Stage
在Spark的计算过程中,每一个Job都可以看成是若干个stage组合形成。需要注意的是,组合形成Job的Stage可能不尽相同。
2.4 task
在Spark的计算过程中,每一个Stage都是由task组成,task是具体执行计算任务的实体,每一个task都会被发送到计算节点上进行计算。
通过对上面内容的描述,可以在下图绘制出Job,Stage,Task之间的关系,整体上是总分总的逻辑关系。
&nbs

本文深入解析Spark中的DAGScheduler,包括其核心概念如Job、Stage和Task的关系,以及RDD血缘、Stage划分原则等内容。有助于理解Spark的任务调度机制。
最低0.47元/天 解锁文章
454

被折叠的 条评论
为什么被折叠?



