Spark中的宽窄依赖

songqq27

已于 2024-11-07 18:17:22 修改

阅读量856

点赞数 15

文章标签： spark 大数据分布式

于 2024-11-04 20:14:51 首次发布

本文链接：https://blog.youkuaiyun.com/m0_57764570/article/details/143434391

版权

一、什么是依赖关系

这里通过一张图来解释：

result_rdd是由tuple_rdd使用reduceByKey算子得到的，而tuple_rdd是由word_rdd使用map算子得到的，word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系！

二、什么是宽窄依赖

窄依赖：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】

特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】

特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等

Spark的job中按照宽依赖来划分Stage

宽窄依赖本质：只是一种标记，标记两个RDD之间的依赖关系

三、为什么要标记宽窄关系

1、提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

举例：如果子RDD的某个分区的数据丢失

不标记：不清楚父RDD与子RDD数据之间的关系，必须重新构建整个父RDD所有数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

2、提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

举例：如果RDD需要多个map、flatMap、filter、 reduceByKey、sortByKey等算子的转换操作

不标记：每个转换不知道会不会经过Shuffle，都使用不同的 Task来完成，每个Task的结果要保存到磁盘
标记了：多个连续窄依赖算子放在一个Stage中，共用一套 Task在内存中完成所有转换，性能更快。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。