Apache Hive—join操作

Hive join

Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。
Hive支持等值连接(a.id=b.id),不支持非等值(a.id>b.id)的连接,因为非等值连接非常难转化到map/reduce任务。另外,Hive支持多2个以上表之间的join。
写join查询时,需要注意几个关键点:

  • join时,每次map/reduce任务的逻辑:
    reducer会缓存join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)。
  • LEFT,RIGHT和FULL OUTER关键字用于处理join中空记录的情况
    SELECT a.val,b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
    对应所有a表中的记录都有一条记录输出。输出的结果应该是a.val,b.val,当a.key=b.key时,而当b.key中找不到等值的a.key记录时也会输出:
    a.val, NULL
    所以a表中的所有记录都被保留了:
    “a RIGHT OUTER JOIN b”会保留所有b表的记录。
  • join发生在WHERE子句之前
    如果你想限制join的输出,应该在WHERE子句中写过滤条件——或是在join子句中写。这里面一个容易混淆的问题是表分区的情况:<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值