spark中哪些算子会导致shuffle

hzp666

已于 2023-05-16 16:59:53 修改

阅读量5.3k

点赞数 6

分类专栏： spark 文章标签： spark shuffle 算子

于 2021-06-15 18:47:11 首次发布

原文链接：https://blog.youkuaiyun.com/weixin_41624046/article/details/88065581

版权

spark 专栏收录该内容

54 篇文章

订阅专栏

spark中会导致shuffle操作的有以下几种算子、
1、repartition类的操作：比如repartition、repartitionAndSortWithinPartitions、coalesce(默认不会，第二个参数shuffle:（Boolean ）：为Ture时会；少分区向多分区转换会)等
2、byKey类的操作：比如reduceByKey、groupByKey、sortByKey等
3、join类的操作：比如join、cogroup等

重分区: 一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机，均匀的打乱，然后把数据放入下游新的指定数量的分区内
byKey类的操作：因为你要对一个key，进行聚合操作，那么肯定要保证集群中，所有节点上的，相同的key，一定是到同一个节点上进行处理
join类的操作：两个rdd进行join，就必须将相同join
key的数据，shuffle到同一个节点上，然后进行相同key的两个rdd数据的笛卡尔乘积

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。