Spark-SQL adaptive 自适应框架

最新推荐文章于 2025-05-07 09:04:23 发布

九指码农

最新推荐文章于 2025-05-07 09:04:23 发布

阅读量6.3k

点赞数 2

分类专栏： spark-sql 文章标签： spark hive 自适应框架 adaptive

本文链接：https://blog.youkuaiyun.com/qq_14950717/article/details/105302842

版权

一、自适应框架能解决什么问题
1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200)，一个作业一旦设置了该参数，它运行过程中的所有阶段的reduce个数都是同一个值。
而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，比如reduce阶段要处理的数据可能是10MB，也有可能是100GB, 如果使用同一个值对实际运行效率会产生很大影响，比如10MB的数据一个task就可以解决，如果spark.sql.shuffle.partition使用默认值200的话，那么10MB的数据就要被分成200个task处理，增加了调度开销，影响运行效率。
SparkSQL自适应框架可以通过设置shuffle partition的上下限区间，在这个区间内对不同作业不同阶段的reduce个数进行动态调整。
通过区间的设置，一方面可以大大减少调优的成本(不需要找到一个固定值)，另一方面同一个作业内部不同reduce阶段的reduce个数也能动态调整
参数如下：

spark.sql.adaptive.enabled     默认false  自适应执行框架的开关
spark.sql.adaptive.minNumPostShufflePartit

最低0.47元/天解锁文章