SparkCore 运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

SparkCore运行详解：DAG、Lineage与宽窄依赖

最新推荐文章于 2025-10-21 14:57:46 发布

原创

最新推荐文章于 2025-10-21 14:57:46 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#DAG #宽依赖和窄依赖

本文深入剖析Spark内部运行过程，包括Spark术语解析，如Application、Executor、Driver等，以及核心流程：DAG Scheduler、Task Scheduler的工作。重点讨论了Lineage、宽依赖和窄依赖的概念，解释了它们在数据容错中的作用。适合大数据岗位面试复习。

之前的Spark总结，我提到了Spark的学习主要分为四个部分：

1.Spark Core用于离线计算；
2.Spark SQL用于交互式查询
3.Spark Streaming用于实时流式计算
4.Spark MLlib用于机器学习
这一篇博客我来讲讲Spark内部的运行过程剖析，比较偏理论但是绝对值得你一看。

Spark中的专业术语

1.Application：基于Spark的用户程序，包含了driver program和集群上多个executor
Spark中只要有一个sparkcontext就是一个application；
启动一个spark-shell也是一个application，因为在启动spark-shell是就内置了一个sc(SparkContext的实例)
2.执行器（executor）:在Worker Node上为某Application启动一个进程，该进程负责运行任务，并且负责将数据在硬盘或者内存中；每个Application都有各自独立的executors;
3.Driver Program：Spark中的Driver即运行上述Application的main()函数并且创建 SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Driver
4.Cluster Manager：在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )
5.Worker Node 集群中任何可以运⾏行应⽤用代码的节点
6.Master,是个进程，主要是负责资源的调度和分配，还有集群的监控等等职责。
7.Worker,同样是个进程，主要负责两个，一个是用自己的内存存储RDD的某个或者某些partition;另一个是启动其他线程或进程，对RDD上的partition进行处理和计算。
8.Task：被送到某个executor上的工作单元
9.Job 包含很多任务的并⾏行计算，Spark中的一个action对应一个job，如：collect, count, saveAsTextFile;
用户提交的Job会提交给DAGScheduler,Job会被分解成Stage(TaskSet) DAG;
RDD的transformation只会记录对元数据的操作（map/filter），而不会真正执行，只有action触发时才会执行job;
10.Stage ⼀个Job会被拆分很多组任务，每组任务被称为一个Stage，也可称为 TaskSet(就像Mapreduce分map任务和reduce任务⼀一样)
一个stage的边界往往是从某个地方取数据开始（如：sc.readTextFile），在shuffle时（如join,red

最低0.47元/天解锁文章