窄依赖
父RDD的一个分区被一个子RDD的一个分区使用,分区是一对一或多对一的对应关系。
如,map、filter等操作。
宽依赖
父RDD的分区被多个子RDD的分区使用,分区是一对多的对应关系,那么就会有如何分配的问题(shuffle过程)。
如,groupByKey等操作。
宽依赖、窄依赖是理解划分Stage的重要概念。
了解Stage的划分
本文深入解析了RDD的窄依赖和宽依赖概念,窄依赖表现为一对一或多对一的分区关系,如map、filter操作;宽依赖则表现为一对多的分区关系,如groupByKey操作,涉及shuffle过程。这些概念对于理解Spark作业的Stage划分至关重要。
父RDD的一个分区被一个子RDD的一个分区使用,分区是一对一或多对一的对应关系。
如,map、filter等操作。
父RDD的分区被多个子RDD的分区使用,分区是一对多的对应关系,那么就会有如何分配的问题(shuffle过程)。
如,groupByKey等操作。
宽依赖、窄依赖是理解划分Stage的重要概念。
了解Stage的划分
2609
1083
209
846

被折叠的 条评论
为什么被折叠?