如何处理hive的数据倾斜?

最新推荐文章于 2025-03-10 14:59:59 发布

原创

最新推荐文章于 2025-03-10 14:59:59 发布 · 430 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

本文探讨了Hive数据倾斜的根本原因，重点介绍了数据倾斜的解决方案，包括使用map join、bucket map join和SMB map join优化大表连接，以及通过MR处理和union all的优化来平衡负载。同时，针对group by数据倾斜，提出了使用combiner提前聚合和运行多个MR任务的方法。

hive的数据倾斜

出现倾斜的根本原因:
一数据倾斜处理
二 group by数据倾斜

出现倾斜的根本原因:

在reduce中,某一个或者某几个的分组k2对应的value的数据比较多.从而引起数据倾斜问题.

一数据倾斜处理

1 使用map join/bucket map join/SMB map join解决

q: 为什么传统默认join效率低?

默认执行的时候 .执行join的sql. 走MR的时候最终是在 reduce端进行join操作 .
出现问题:
1 所有的join连接工作都是交给reduce端.压力比较大.
2 可能会出现数据倾斜问题
解决: 变为map join

map join: 将核心join操作.都集中在map端操作.而map数量是有读取文件的切片决定的,
  	会保证每一个maptask的数量最基本是差不多.不会导致数据倾斜问题.map的数量会随着
  	读取文件数据量增大而增多.依次不断提升MR的执行效率.
弊端: 
  1 比较耗费内粗
  2 要求整个join中 必须有小表 
使用条件:
  1 set hive.auto.convert.join=true:--开启map join 的支持.默认就是true
  2 set hive.auto.convert.join.noconditionaltask.size=512000000 默认为 20971520(20M)

小表 join 大表(Map join)

使用条件:
1 set hive.auto.convert.join=true;  -- 开启map join的支持, 默认就是true
2 set hive.auto.convert.join.noconditionaltask.size=512000000 默认为 20971520 (20M)

对表类型没有要求

中型表 join大表 (bucket map join)

使用条件:
1 两个表必须是分桶表 
2 开始bucket map join 支持 : set hive.optimize.bucketmapjoin = true
3 一个表的分桶表的数量是另一个表的分桶表数量的整数倍
4 bucket列必须是 join 的列
5 必须应用在map join 场景中

大表 join大表(SMB map join)

SMB: sort merge bucket

使用条件:
1 两个表必须是分桶表 
2 开始SMB map join 支持
 	set hive.optimize.bucketmapjoin = true;  -- 开启 bucket map join
	set hive.auto.convert.sortmerge.join=true; -- 开启 SBM join支持
	set hive.auto.convert.sortmerge.join.noconditionaltask=true;  -- 开启 SBM join支持
	set hive.optimize.bucketmapjoin.sortedmerge = true  -- 自动尝试开启 SMB join
3 两个表分桶表必须是一致的 
4 bucket 列必须是join的列 同时必须保证分桶字段进行排序操作 
	set