hive 的 left semi join代替in操作

本文介绍Hive中因未实现IN/EXISTS子查询,如何使用LEFT SEMI JOIN作为替代方案。通过具体例子说明其语法及限制,并对比JOIN在处理重复记录时的不同表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hive 当前没有实现 IN/EXISTS 子查询,可以用 LEFT SEMI JOIN 重写你的子查询语句。
举个栗子:
select emp.id,emp.name from emp where emp.id in (select dept.empid from dept)
可以改写为:
select emp.id,emp.name from emp left semi join dept on (emp.id = dept.id)

1、left semi join 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

2、因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,而 join 则会一直遍历。这就导致右表有重复值得情况下 left semi join 只产生一条,join 会产生多条,也会导致 left semi join 的性能更高。
left semi join有去重功能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值