Spark shuffle

最新推荐文章于 2025-12-31 16:58:07 发布

原创最新推荐文章于 2025-12-31 16:58:07 发布 · 506 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据 #分布式

大数据面试专栏收录该内容

183 篇文章

订阅专栏

Spark最初版本HashShuffle。

Spark 0.8.1版本以后优化后的HashShuffle。

Spark1.1版本加入SortShuffle，默认是HashShuffle。

Spark1.2版本默认是SortShuffle，但是可配置HashShuffle。

Spark2.0版本删除HashShuffle只有SortShuffle。

3.1 Shuffle的原理和执行过程

Shuffle一定会有落盘。

如果Shuffle过程中落盘数据量减少，那么可以提高性能。
算子如果存在预聚合功能，可以提高Shuffle的性能。

3.2 HashShuffle解析

3.2.1 未优化的HashShuffle

3.2.2 优化后的HashShuffle

优化的HashShuffle过程就是启用合并机制，合并机制就是复用buffer，开启合并机制的配置是spark.shuffle.consolidateFiles。该参数默认值为false，将其设置为true即可开启优化机制。通常来说，如果我们使用HashShuffleManager，那么都建议开启这个选项。

官网参数说明：http://spark.apache.org/docs/0.8.1/configuration.html

3.3 SortShuffle解析

3.3.1 SortShuffle

在溢写磁盘前，先根据key进行排序，排序过后的数据，会分批写入到磁盘文件中。默认批次为10000条，数据会以每批一万条写入到磁盘文件。写入磁盘文件通过缓冲区溢写的方式，每次溢写都会产生一个磁盘文件，也就是说一个Task过程会产生多个临时文件。最后在每个Task中，将所有的临时文件合并，这就是merge过程，此过程将所有临时文件读取出来，一次写入到最终文件。

3.3.2 bypassShuffle

bypassShuffle和SortShuffle的区别就是不对数据排序。

bypass运行机制的触发条件如下：

1）shuffle reduce task数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值，默认为200。

2）不是聚合类的shuffle算子（比如reduceByKey不行）。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

走过冬季 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。