Spark Shuffle Partitions调优

原创已于 2025-08-26 15:30:47 修改 · 777 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-08-26 13:55:40 首次发布

1 篇文章

订阅专栏

Spark Shuffle 调优详解

在 Spark SQL 和 DataFrame 的执行中，Shuffle 是最关键、最影响性能的操作之一。Shuffle 不仅涉及数据重分布，还直接影响任务并行度和最终输出文件数量。本文从基础概念到调优策略，系统梳理 Shuffle 相关参数和优化方法。

Spark 的执行逻辑可以简化为：

SQL/DataFrame -> Catalyst优化(逻辑计划) -> 物理计划 -> DAG切Stage -> Task调度 -> Executor执行 -> 结果/文件输出

Stage：按 Shuffle 划分的执行阶段。Stage 之间通过宽依赖（wide dependency，如 groupBy、join）进行数据交换。
Task：Stage 的最小执行单元，每个 Task 处理一个数据分区。Task 数 = 分区数。

窄依赖算子（Narrow dependency，如 map、filter）：父分区和子分区一对一，可流水线执行，无需落盘。
宽依赖算子（Wide dependency，如 groupByKey、join、distinct）：父分区和子分区多对多，需要 Shuffle，Stage 切分点。

Shuffle 是宽依赖算子触发的关键操作，可分为两个阶段：

Shuffle Write
- 每个 Task 根据分区规则将数据按 key 划分到下游分区。
- Task 可能将数据溢写到磁盘。
- 每个 Task 生成一组中间文件，为下游 Stage 的 Task 读取做准备。
Shuffle Read
- 下游 Stage 的 Task 拉取上游 Shuffle 文件中属于自己的分区数据。
- 拉取后进行聚合或排序，执行下游算子。

Shuffle 是 Stage 切分的边界，也是 Spark 性能的瓶颈之一。

spark.sql.adaptive.coalescePartitions.minPartitionSize=64m # 合并后每个分区最小大小 
spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128m # 每个分区目标大小

参数	生效阶段	静态/动态	作用	关系
spark.sql.shuffle.partitions	物理计划生成	静态	初始 Shuffle 输出分区数	AQE 的初始值
spark.sql.adaptive.coalescePartitions.enabled	Shuffle 执行阶段	动态	根据实际数据量合并分区	可以修改初始 Task 数，减少小文件，不冲突

理解类比：

小文件问题主要来源于以下原因：

核心结论：分区数和每个 Task 数据量直接决定 Shuffle 输出文件大小和数量。

合理设置 spark.sql.shuffle.partitions
- 根据总数据量和目标每个 Task 数据量计算：
  
  shuffle.partitions = 数据总量 / 每个Task目标数据量
- 通常目标数据量为 128MB 左右。
开启 AQE 分区合并

spark.sql.adaptive.enabled=true spark.sql.adaptive.coalescePartitions.enabled=true spark.sql.adaptive.coalescePartitions.minPartitionSize=64m spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128m
- 初始 Task 数由 shuffle.partitions 提供
- 实际运行时动态调整 Task 数和文件数
必要时手动调整
- 使用 coalesce(n) 或 repartition(n) 控制输出文件数量。
避免无意义 Shuffle
- 尽量用 map-side combine、广播 Join 等减少 Shuffle。