Map倾斜，Join倾斜，reduce倾斜

最新推荐文章于 2025-12-04 18:10:19 发布

原创最新推荐文章于 2025-12-04 18:10:19 发布 · 548 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

大数据同时被 3 个专栏收录

277 篇文章

订阅专栏

Hadoop

52 篇文章

订阅专栏

hive

39 篇文章

订阅专栏

我们来深入探讨大数据处理中（尤其是在Hive和Spark等框架中）三种常见的性能瓶颈：Map倾斜、Join倾斜和Reduce倾斜。这三种“倾斜”的本质都是数据分布不均，导致个别任务处理的数据量远大于其他任务，从而拖慢整个作业的进程，就像木桶的短板效应。

1. Map倾斜 (Map Skew)

什么是Map倾斜？

Map阶段负责读取输入数据并将其切割成多个分片（Split），每个分片由一个Map Task处理。Map倾斜指的是：个别Map Task读取和处理的数据分片远大于其他Map Task。这通常是由于底层数据源本身的数据分布不均匀造成的。

产生原因：

源数据文件大小不均：例如，HDFS上有100个文件，其中99个是128MB，但有1个是10GB。那么处理这个10GB文件的Map Task将比其他99个慢得多。
不可切分的文件格式：使用了不支持Split的压缩格式（如GZIP）。假设有一个1.5GB的GZIP文件，HDFS块大小是128MB，那么它会存储在12个块中。但由于GZIP不可切分，必须启动一个Map Task来读取整个1.5GB的文件，这个Task的压力会非常大。
数据源特性：从某些数据库（如MySQL）通过sqoop import导入数据时，如果选择基于某一列进行分区，而该列的值分布不均，也会导致每个Map Task读取的数据量不同。

解决方案：

预处理数据源：在数据生成的上游就尽量保证文件大小均匀（例如，使用distribute by或repartition操作）。
使用可切分的文件格式和压缩格式：
- 文件格式：优先使用ORC、Parquet等列式存储格式，它们不仅可切分，还支持高效的压缩和谓词下推。
- 压缩格式：使用可切分的压缩格式，如BZip2、LZO（带有索引）或Snappy（通常与可切分的容器格式如Avro结合使用）。
调整参数：对于Hive，可以调整mapred.max.split.size和mapred.min.split.size来控制Split的大小，使分片更均匀。

2. Join倾斜 (Join Skew)

什么是Join倾斜？

Join倾斜是三种倾斜中最常见和最棘手的一种。它发生在Reduce阶段（或Spark中的Shuffle阶段）之前，但其根源在Join操作。当参与Join的一张或两张表中，用于关联的Key（键）分布极度不均匀时，就会发生Join倾斜。

产生原因：

存在热点Key：某个或某几个Key对应的数据量异常多。
- 经典例子：日志表user_logs中，有一个user_id = 'NULL'或user_id = 0的项，所有无法匹配的用户日志都被记录在此。当这个表与用户表users进行user_id关联时，所有NULL或0的记录都会被Shuffle到同一个Reduce Task上进行处理，导致该Task不堪重负。
- 其他例子：如电商中的“爆款”商品ID、微博中的“大V”用户ID等。

解决方案：

解决Join倾斜的思路通常是“分而治之”，将热点Key打散处理。

过滤热点Key，单独处理：
- 首先识别出热点Key（例如，通过采样统计Key的频率分布）。
- 将数据拆分成两部分：不含热点Key的数据集和只含热点Key的数据集。
- 对不含热点Key的数据集进行普通Join。
- 对热点Key的数据集，可以采取Map端Join（Broadcast Join）。例如，如果热点Key在一张小表中，可以将其广播出去，避免Shuffle。
- 最后将两个Join结果合并（UNION ALL）。
将热点Key打散（增加随机前缀/后缀）：
- 这是最常用和有效的技巧。
- 步骤：
  - 识别热点Key：通过select key, count(*) from table group by key找出数据量大的Key。
  - 打散大表的热点Key：对大表中热点Key的数据，在其关联Key上加上一个随机前缀（如1到N之间的随机数）。
```
-- 假设‘NULL’是热点Key，我们打算将其打散成10份
SELECT 
    ...,
    CASE WHEN user_id = 'NULL' THEN concat('NULL_', ceil(rand()*10))
         ELSE user_id
    END AS joined_key
FROM user_logs
```
  - 扩容小表的热点Key：对小表中对应的热点Key，需要将其扩容成N份，每份加上与上述相同的后缀。
```
-- 对小表users中user_id为'NULL'的记录，复制10份
SELECT 
    ...,
    concat(user_id, '_', num) AS joined_key
FROM users
LATERAL VIEW explode(array(1,2,3,4,5,6,7,8,9,10)) tmp_tbl AS num
WHERE user_id = 'NULL'

UNION ALL

-- 非热点Key保持不变
SELECT
    ...,
    user_id AS joined_key
FROM users
WHERE user_id != 'NULL'
```
  - 执行Join：现在，打散后的joined_key就可以进行关联了。原本一个Reduce Task处理的NULL数据，现在被随机分布到10个Task中去处理，大大减轻了单个Task的压力。
  - 注意：此方法只对热点Key使用，非热点Key保持原样，否则会增加Shuffle数据量。
使用Skew Join优化（自动化方案）：
- Spark AQE (Adaptive Query Execution)：在Spark 3.0+中，开启AQE后（spark.sql.adaptive.skewJoin.enabled=true），Spark会自动检测Shuffle后的数据倾斜，并将倾斜的分区拆分成更小的子分区进行处理，无需手动干预。
- Hive Skew Join：通过设置set hive.optimize.skewjoin=true;来开启。Hive会自动检测倾斜的Key，并在运行时为它们启动更多的Reduce Task。但需要配合set hive.skewjoin.key=<number>;（设置视为倾斜Key的阈值）使用。

3. Reduce倾斜 (Reduce Skew)

什么是Reduce倾斜？

Map阶段结束后，数据会通过Shuffle过程按照Key进行分区，然后发送到Reduce Task。Reduce倾斜指的是：个别Reduce Task接收到的数据量远多于其他Task。Join倾斜实际上是Reduce倾斜的一种最常见诱因，但Reduce倾斜的范围更广。

产生原因：

Map端的输出Key分布不均：这是最根本的原因。如果某个Key有上亿条记录，而其他Key只有几条，那么处理这个Key的Reduce Task自然会非常慢。
自定义分区器（Partitioner）不合理：例如，自定义的分区逻辑导致大部分数据都被分到了同一个分区。
GROUP BY的字段存在热点：即使没有Join，单纯的GROUP BY操作，如果分组字段存在某个值特别多，也会导致Reduce倾斜。
ORDER BY：全局排序ORDER BY通常最终只会有一个Reduce Task，因为所有数据需要集中到一起排序，这本身就是一种极端的“倾斜”。

解决方案：

从源头解决：参考Join倾斜的解决方案，处理热点Key。
增加Reduce Task数量：通过设置mapred.reduce.tasks（Hive）或Spark的并行度，有时可以缓解问题，但如果存在超级热点Key，单纯增加数量可能无效，因为该Key的所有数据仍然必须由同一个Task处理。
调整Hive参数：hive.exec.reducers.bytes.per.reducer（每个Reducer处理的数据量）和hive.exec.reducers.max（最大Reducer数）可以控制Reducer的数量，使其更适应数据量。
避免全局排序：尽量使用DISTRIBUTE BY ... SORT BY替代ORDER BY，先在每个Reduce内部排序，然后再合并，虽然不是全局有序，但性能好很多。
检查分区逻辑：如果使用了自定义分区器，确保其逻辑能将数据均匀分布。

总结与对比

倾斜类型	发生阶段	根本原因	核心解决方案
Map倾斜	Input/Map	输入数据文件本身大小不均	使用可切分格式、预处理数据源、调整Split大小
Join倾斜	Shuffle/Reduce	Join Key中存在热点Key	打散热点Key：过滤单独处理、加随机前缀/后缀
Reduce倾斜	Shuffle/Reduce	Shuffle前的数据Key分布不均或分区逻辑问题	处理热点Key、调整Reduce数量、优化分区器

核心思想：处理数据倾斜的关键在于识别热点，然后对热点数据和非热点数据区别对待，通过“分治”和“打散”的思想，将原本由一个Task处理的巨大负载，分散到多个Task中并行处理，从而缩短整个作业的执行时间。现代计算框架如Spark AQE正在努力将这些优化自动化，但理解其底层原理对于处理复杂场景和调优仍然至关重要。