RDD宽依赖、窄依赖&DAG

Spark窄依赖与宽依赖解析

最新推荐文章于 2022-04-02 18:15:43 发布

原创最新推荐文章于 2022-04-02 18:15:43 发布 · 621 阅读

CC 4.0 BY-SA版权

本文为博主原创文章，转载请标明原址

文章标签：

3 篇文章

订阅专栏

本文详细解析了Spark中的窄依赖与宽依赖概念，包括它们的特点、应用场景及对DAG图的影响。窄依赖适用于数据处理可在单机内存内完成的情况，而宽依赖则涉及shuffle操作，可能引发数据重复计算问题。

每个父RDD中的partition最多被子RDD中的一个Partition所使用；子RDD中partition的个数大于等于父RDD中partition的个数

父RDD与子RDD是一对一的依赖关系（OneToOneDependency）：map、filter、join with inputs co-partitioned；
注：子RDD只依赖父RDD中相同partitionID的partition
父RDD与子RDD是一对一的范围内依赖关系（RangeDependency）：union

一个父RDD的partition会被多个子RDD的partition所使用，会导致计算中产生shuffle；

eg：groupByKey、join with inputs not co-partitioned
存在问题：由于一个父RDD的一个partition对应子RDD的多个partition，会出现部分计算结果丢失，单一计算丢失的数据无法达到效果，便重新计算该步骤中的所有数据，从而导致计算数据重复。

宽依赖一定有shuffle，有shuffle不一定是宽依赖； 
两个要join的rdd的partition数相同，这种情况是窄依赖，其余情况的join都是宽依赖

生成重点是stage划分，划分依据是RDD之间的依赖关系；
程序提交后，高度调度器将所有RDD看成一个stage，对此stage从后往前回溯，遇到shuffle就断开，遇到窄依赖则归并到同一个stage，等所有步骤回溯完成，则形成一个DAG图