Spark的调度流程—详细、易懂、面试

最新推荐文章于 2025-05-11 15:09:55 发布

原创最新推荐文章于 2025-05-11 15:09:55 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#Spark的调度流程 #DAGScheduler #TaskScheduler

Spark 专栏收录该内容

33 篇文章

订阅专栏

本文详细介绍了Spark的任务调度过程，包括从DriverProgram提交程序到SparkContext，再到DAGScheduler和TaskScheduler的具体步骤。深入探讨了如何将作业划分为不同的stage，并在集群中执行任务的过程。

先看一下Spark调度过程的流程图。这张图很不错：

具体流程如下：

1）DriverProgram即用户提交的程序定义并创建了SparkContext的实例，SparkContext会根据RDD对象构建DAG图，然后将作业(job)提交(runJob)给DAGScheduler。

2）DAGScheduler对作业的DAG图进行切分成不同的stage[stage是根据shuffle为单位进行划分]，每个stage都是任务的集合(taskset)并以taskset为单位提交(submitTasks)给TaskScheduler。

3）TaskScheduler通过TaskSetManager管理任务(task)并通过集群中的资源管理器(Cluster Manager)[standalone模式下是Master，yarn模式下是ResourceManager]把任务(task)发给集群中的Worker的Executor, 期间如果某个任务(task)失败， TaskScheduler会重试，TaskScheduler发现某个任务(task)一直未运行完成，有可能在不同机器启动一个推测执行任务（与原任务一样），哪个任务(task)先运行完就用哪个任务(task)的结果。无论任务(task)运行成功或者失败，TaskScheduler都会向DAGScheduler汇报当前状态，如果某个stage运行失败，TaskScheduler会通知DAGScheduler可能会重新提交任务。

4）Worker接收到的是任务(task)，执行任务(task)的是进程中的线程，一个进程中可以有多个线程工作进而可以处理多个数据分片，执行任务(task)、读取或存储数据。