hive中join用法

最新推荐文章于 2025-05-30 14:28:52 发布

转载最新推荐文章于 2025-05-30 14:28:52 发布 · 1k 阅读

·

0

·

文章标签：

#hive #join #join用法

hive 专栏收录该内容

12 篇文章

订阅专栏

1. 内连接：inner join

--join优化：在进行join的时候，大表放在最后面

--但是使用 /*+streamtable(大表名称)*/ 来标记大表，那么大表放在什么位置都行了

select /*+streamtable(s)*/ s.ymd,d.dividend

from stocks s inner join dividends d on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’aapl’

2. 外连接：left outer join,right outer join,full outer join

把外连接(outer join)中where语句中的过滤条件，放在on语句是无效的。不过对于内连接有效。

3. 笛卡尔积：join

join的时候不使用on，而使用where的。

--笛卡尔积join很缓慢，可以设置hive.mapred.mode=strict来阻止执行

hive.mapred.mode=strict

4. 左半开连接：left semi-join（hive不支持右半开连接）

左半开连接（left semi-join）会返回左边表的记录，前提是其记录对于右边表满足on语句中的判定条件。

select和where语句中都不能引用右边表的字段。

适用场景：

因为hive不支持in...exists结构，所以要使用左半开连接代替.

注意点：

semi-join比inner join更高效

hive不支持右半开连接.

5. map端join：map-side join

map-side join：hive可以在map端执行连接过程（对于在join时有一个是小表的情况）

使用map-side join，需要配置下：

（1）hive0.7版本之前，需要加/*+ mapjoin(表名) */

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL

（2）hive0.7版本开始，设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位：字节)--注意：右外连接和全外连接不支持这个优化

备注：

(1). hive的join语句，只支持等值连接。

(2). 注：pig提供的交叉生成功能支持“非等值连接”.

(3). hive目前不支持在join 的on子句中使用or。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。