Hive中的SMB(Sort-Merge-Buket) Join

本文介绍了一种针对bucketmapjoin的优化方案——SMBJoin。该方案通过设置特定参数并确保满足一系列条件,在map端实现join操作,从而有效减少或避免shuffle的数据量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SMB join (针对bucket mapjoin 的一种优化)
条件
1)set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.auto.convert.sortmerge.join.noconditionaltask=true;
2) 小表的bucket数=大表bucket数
3) Bucket 列 ==Join列 == sort 列
4) 必须是应用在bucket mapjoin 的场景中

smb-join基于sorted-merge的有序bucket可实现在map端完成join操作,可以有限地减少或避免shuffle的数据量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值