

什么是 shuffle:
父 RDD 的一个分区的数据,要给子 RDD 的多个分区,shuffle 要有网络传输,但是有网络传输的,不一定
就是 shuflle
如果当前rdd与父rdd 分区器都是Hashpartitioner,而且分区数相同,那么就不会产生shuffle,就是如果一个分区已经经历过一次 shuffle或者分区,而且下次的分区数和分区器。也不发生变化就不是shuffle,他认为已经shuffle过了。

本文解释了Shuffle的概念及其在分布式计算中的作用。特别是在使用相同的分区器且分区数量不变的情况下,可以避免进行Shuffle操作,从而提高计算效率。


什么是 shuffle:
父 RDD 的一个分区的数据,要给子 RDD 的多个分区,shuffle 要有网络传输,但是有网络传输的,不一定
就是 shuflle
如果当前rdd与父rdd 分区器都是Hashpartitioner,而且分区数相同,那么就不会产生shuffle,就是如果一个分区已经经历过一次 shuffle或者分区,而且下次的分区数和分区器。也不发生变化就不是shuffle,他认为已经shuffle过了。

2605
594
3万+
1030

被折叠的 条评论
为什么被折叠?
