HIVE left semi join & inner join区别

本文详细介绍了HIVE的LEFT SEMI JOIN,它等效于不相关的IN/EXISTS子查询,但限制是右表只能在ON子句中引用。LEFT SEMI JOIN特点是只传递左表的join key,不产生右表重复记录的多条结果,这使得它的性能优于INNER JOIN。当右表有重复数据时,INNER JOIN会产生多条记录,而LEFT SEMI JOIN仅返回一条。两者的区别在于LEFT SEMI JOIN在找到匹配项后不会继续搜索,从而避免多余的结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

left semi join 详解

LEFT SEMI JOIN以一种高效的方式实现了不相关的IN/EXISTS子查询语义。 在Hive 0.13中,IN/NOT IN/EXISTS/NOT EXISTS操作符被支持使用子查询,所以大多数join操作不再需要手动执行。 使用LEFT SEMI JOIN的限制是,右边的表只能在连接条件(on子句)中引用,而不能在WHERE或select子句等中引用。

示例

SELECT a.key, a.value
FROM a
WHERE a.key in
 (SELECT b.key
  FROM B);

可以改写为

SELECT a.key, a.val
FROM a LEFT SEMI JOIN b ON (a.key = b.key)

特点

1、left semi join 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

2、left semi join 是只传递表的 join key 给 map 阶段,因此left semi join 中最后 select 的结果只许出现左表。

3、因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,而 join 则会一直遍历。这就导致右表有重复值得情况下 left semi join 只产生一条,join 会产生多条,也会导致 left semi join 的性能更高。

与inner join区别

HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际情况的不一样,子表中数据的差异导致结果也不太一样。

当子表(tab2)中存在重复的数据,当使用JOIN ON的时候,A,B表会关联出两条记录,应为ON上的条件符合;
而是用LEFT SEMI JOIN 当A表中的记录,在B表上产生符合条件之后就返回,不会再继续查找B表记录了,所以如果B表有重复,也不会产生重复的多条记录。

比如以下A表和B表进行 join 或 left semi join,然后 select 出所有字段,结果区别如下:
在这里插入图片描述

注意:蓝色叉的那一列实际是不存在left semi join中的,因为最后 select 的结果只许出现左表。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值