Spark 概念学习系列之DAG的生成（十一）

最新推荐文章于 2025-09-05 16:08:31 发布

转载最新推荐文章于 2025-09-05 16:08:31 发布 · 162 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/371264

文章标签：

#大数据

本文解析了Spark中DAG的生成机制，包括如何根据依赖关系形成Lineage以确保RDD的正确计算及容错，以及如何根据宽依赖划分Stage，并为每个Stage内部的Partition分配并行执行的任务。

DAG的生成

原始的RDD(s)通过一系列转换就形成了DAG。RDD之间的依赖关系，包含了RDD由哪些Parent RDD(s)转换而来和它依赖parent RDD(s)的哪些Partitions，是DAG的重要属性。借助这些依赖关系，DAG可以认为这些RDD之间形成了Lineage（血统）。借助Lineage，能保证一个RDD被计算前，它所依赖的parent RDD都已经完成了计算；同时也实现了RDD的容错性，即如果一个RDD的部分或者全部的计算结果丢失了，那么就需要重新计算这部分丢失的数据。

那么Spark是如何根据DAG来生成计算任务呢？

　　首先，根据依赖关系的不同将DAG划分为不同的阶段（Stage）。对于窄依赖，由于Partition依赖关系的确定性，Partition的转换处理就可以在同一个线程里完成，窄依赖被Spark划分到同一个执行阶段；对于宽依赖，由于Shuffle的存在，只能在parent RDD(s) Shuffle处理完成后，才能开始接下来的计算，因此宽依赖就是Spark划分Stage的依据，即Spark根据宽依赖将DAG划分为不同的Stage。

　　在一个Stage内部，每个Partition都会被分配一个计算任务（Task），这些Task是可以并行执行的。

　　　Stage之间根据依赖关系变成了一个大粒度的DAG，这个DAG的执行顺序也是从前向后的。也就是说，Stage只有在它没有parent Stage或者parent Stage都已经执行完成后，才可以执行。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5723768.html，如需转载请自行联系原作者