
窄依赖:一个RDD,对它的父RDD,只有简单的一对一的依赖关系。也就是说,每个RDD的partition,仅仅依赖于父RDD中的一个partition。父RDD和子RDD的partition之间的关系是一对一的。
宽依赖:本质就是Shuffle,就是每一个父RDD的partition中的数据,都可能会传输一部分,到下一个RDD的每个partition中。此时就会出现,父RDD和子RDD的partition之间,具有交互的关系。
本文介绍了大数据处理中两种核心依赖关系:窄依赖与宽依赖。窄依赖表现为一对一的简单依赖关系,而宽依赖则涉及数据shuffle过程,使得父RDD与子RDD间的partition关系变得复杂。

窄依赖:一个RDD,对它的父RDD,只有简单的一对一的依赖关系。也就是说,每个RDD的partition,仅仅依赖于父RDD中的一个partition。父RDD和子RDD的partition之间的关系是一对一的。
宽依赖:本质就是Shuffle,就是每一个父RDD的partition中的数据,都可能会传输一部分,到下一个RDD的每个partition中。此时就会出现,父RDD和子RDD的partition之间,具有交互的关系。

被折叠的 条评论
为什么被折叠?