Spark的Shuffle调优

原创

已于 2022-02-27 18:40:43 修改 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data #大数据 #分布式

于 2022-02-21 20:05:28 首次发布

本文探讨了Spark Shuffle过程中的性能优化，重点关注参数如`spark.sql.shuffle.partitions`，建议设置为核数的2~3倍。此外，通过调整`spark.shuffle.file.buffer`、`spark.reducer.maxSizeInFlight`以减少磁盘IO和网络传输，以及`spark.shuffle.io.maxRetries`和`spark.shuffle.io.retryWait`来改善网络异常的处理。同时，`spark.shuffle.memoryFraction`和`spark.shuffle.manager`的选择也是关键，对于SortShuffleManager，可通过`spark.shuffle.sort.bypassMergeThreshold`避免不必要的排序操作，提升效率。

思路：主要是调整分区数量、缓冲的大小、拉取次数重试重试次数与等待时间、内存比例分配、是否进行排序操作等等...

spark.sql.shuffle.partitions

参数说明：SQL 语句中的 group by、join、distinct、partition by 都会触发 shuffle，当在 SparkSQL 中的 Job 中产生 Shuffle 时，默认的分区数 spark.sql.shuffle.partitions = 200，而在实际项目中要合理设置，可以适当降低，建议为申请核数的 2 ~ 3 倍。

对 SparkSQL 中的 Job 中产生 Shuffle 的调优，有 2 种方式：

既可以在创建 SparkSession 时中设置

spark=SparkSession.builder.appName('test').master('local[*]').config('spark.sql.shuffle.partitions','6').getOrCreate()

也可以在 SQL 会话中设置

spark.sql('set spark.sql.shuffle.partitions=6')

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

竹长大大

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Spark分区方式详解

dmy1115143060的博客

09-11

1万+

一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组，其中Partition是数组中的每个元素，并且这些元素分布在多台机器中。...

Spark 性能调优之Shuffle调优

@小刘同学nice

07-07

5273

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。 map端缓冲的默认配置是32KB，如果每个task处理640KB的数据，...

参与评论您还未登录，请先登录后发表或查看评论

PySpark之SparkShuffle配置选项和配置调优

feizuiku0116的博客

02-09

1078

六、Spark Shuffle的配置选项（配置调优）一、spark 的shuffle调优主要是调整缓冲的大小，拉取次数重试重试次数与等待时间，内存比例分配，是否进行排序操作等等二、spark.shuffle.file.buffer 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小（默认是32K）。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。调优建议：如果作业可用的内存资源较为充

PySpark之Spark Shuffle

feizuiku0116的博客

02-09

1055

三、Spark Shuffle 一、Spark的Shuffle简介 Spark在DAG调度阶段会将一个Job划分为多个Stage，上游Stage做map工作，下游Stage做reduce工作，其本质上还是MapReduce计算框架。Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化和反序列化、跨节点网络IO以及磁盘读写IO等 Spark的Shuffle分为Write和Read两个阶段，分属于两个不同的Stage，前者是Parent Stage的

spark 相关配置 shuffle 相关配置选项

weixin_30596735的博客

04-09

595

在master的/conf/spark-defaults.conf中配置 spark.shuffle.service.enabled true spark.shuffle.service.port 7337 但是在从节点的spark-defaults.conf中注释上面两个配置选项，不然web 界面中将看不到从节点 spark-defaults.conf: spark.l...

PySpark基础入门（6）：Spark Shuffle

WHY的博客

05-06

918

Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等

Spark性能优化：shuffle调优

01-29

但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末...

Spark的shuffle调优

12-19

spark.shuffle.blockTransferService netty shuffle过程中，传输数据的方式，两种选项，netty或nio，spark 1.2开始，默认就是netty，比较简单而且性能较高，spark 1.5开始nio就是过期的了，而且spark 1.6中会去除掉 ...

spark shuffle调优

03-08

对于spark shuffle调优，我可以给出一些建议。首先，可以通过增加shuffle分区数来提高性能。其次，可以使用合适的数据结构来减少shuffle数据的大小。另外，可以通过调整内存分配和磁盘使用策略来优化shuffle性能。...

Spark shuffle调优

王某的博客

05-31

1039

一、优化前： shuffle写的比例为输入数据的1.5倍：二、优化后：三、RDD压缩 spark.shuffle.compress 序列化后，shuffle write仍然较大，考虑压缩 sparkConf.set("spark.rdd.compress", "true") 四、序列化优化 4-1、kyro注册 sparkConf.registerKryoClasses(Array(cla...

sparksql的shuffle分区数设置

qq_42936727的博客

03-28

1947

在SparkSQL中当Job中产生Shuffle时，默认的分区数(spark.sql.shuffle.partitions)为200,在实际项目中要合理的设置，特别是本地场景，一般支持不了200个分区。通常在集群中，也是设置和CPU核心一致，或者CPU的2倍以上。

sparksql set spark.sql.shuffle.partitions

cnjss的博客

07-07

2280

set spark.sql.shuffle.partitions没有效果

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Spark SQL的shuffle分区设置】的总结分析

qq_42198232的博客

03-05

869

Spark SQL的shuffle分区设置

Sparksql 动态shuffle partition

weixin_43839095的博客

10-23

2019

spark 动态shuffle 合并shuffle

PySpark（三）RDD持久化、共享变量、Spark内核制度，Spark Shuffle、Spark执行流程

qq_54517101的博客

02-05

1594

RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失RDD的数据是过程数据,只在处理的过程中存在,一旦处理完成，就不见了例如下面这个例子，生成rdd4的时候， rdd3已经被销毁了，然后下面rdd5需要调用rdd3的时候，只能从rdd->rdd2->rdd3再重新生成一次rdd3。

Spark中的spark.sql.shuffle.partitions 和spark.default.parallelism参数设置默认partition数目