SPARK-SQL参数优化对应释义

最新推荐文章于 2025-01-17 18:36:59 发布

你学狗狗叫

最新推荐文章于 2025-01-17 18:36:59 发布

阅读量1.5k

点赞数 1

分类专栏：互金文章标签： sql

本文链接：https://blog.youkuaiyun.com/qq_42384228/article/details/115720422

版权

本文介绍了SPARK SQL中的一些关键参数优化设置，包括如何开启自动处理Join数据倾斜、动态设置Shuffle Partition以及自动调整执行计划等，以提升SQL查询性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数优化
合理的参数调优，能有效的优化部分SQL性能。

set spark.sql.adaptive.skewedJoin.enabled=true; --开启自动处理 Join 时数据倾斜
set spark.sql.adaptive.skewedPartitionMaxSplits=20; --Join 时数据倾斜最大切分Partition数
set spark.sql.adaptive.skewedPartitionRowCountThreshold=10000000; --按行数开启自动处理 Join 时数据倾斜阈值，1千万行
set spark.sql.adaptive.skewedPartitionSizeThreshold=134217728; --按数据大小开启自动处理 Join 时数据倾斜阈值，128MB
set spark.sql.mergeSmallFileSize=134217728; --合并小文件阈值，小于128MB –
set spark.sql.adaptive.enabled=true; --开启动态设置 Shuffle Partition
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=134217728; --每个Reducer数据量超过该阈值的时候会被拆分成多个并行
set spark.sql.adaptive.join.enabled=true; --开启自动调整执行计划，需开启spark.sql.adaptive.enabled=true
set spark.sql.adaptiveBroadcastJoinThreshold=134217728; --开启自动BroadcastJoin阈值，小于128MB