hive通用优化-join优化

最新推荐文章于 2025-07-04 16:40:45 发布

原创最新推荐文章于 2025-07-04 16:40:45 发布 · 1.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop

本文介绍了Hive中不同join优化方法，如mapjoin适用于小表join大表，reducejoin适用于大表join大表，而bucketjoin包括bucketmapjoin和sortmergebucketjoin，分别针对有序数据和特定条件。讲解了配置参数及适用场景。

底层还是mr的join优化。map join适合小表join大表或者小表join小表。

#是否开启自动转为mapjoin 在满足条件的情况下 默认true
hive.auto.convert.join=true

Hive老版本
#如果参与的一个表大小满足条件 转换为map join
hive.mapjoin.smalltable.filesize=25000000  


Hive2.0之后版本
#是否启用基于输入文件的大小，将reduce join转化为Map join的优化机制。假设参与join的表(或分区)有N个，如果打开这个参数，并且有N-1个表(或分区)的大小总和小于hive.auto.convert.join.noconditionaltask.size参数指定的值，那么会直接将join转为Map join。
hive.auto.convert.join.noconditionaltask=true 
hive.auto.convert.join.noconditionaltask.size=512000000

reduce join适合于大表join大表。

bucket join适合于大表join大表。

方式一：Bucket map join

语法: clustered by colName(参与join的字段)
参数: set hive.optimize.bucketmapjoin = true
要求: 分桶字段 = Join字段 ，分桶的个数相等或者成倍数，必须是在map join中

方式二：sort merge bucket join

基于有序的数据Join
语法:clustered by colName sorted by (colName)
参数
	set hive.optimize.bucketmapjoin = true;
	set hive.auto.convert.sortmerge.join=true;
    set hive.optimize.bucketmapjoin.sortedmerge = true;
    set hive.auto.convert.sortmerge.join.noconditionaltask=true;
    
要求: 分桶字段 = Join字段 = 排序字段,分桶的个数相等或者成倍数