如何用HIVE进行全连接

本文详细介绍了一个使用全外连接实现数据整合的例子。通过创建两个表并插入数据,演示了如何使用SQL的FULL OUTER JOIN来获取左表和右表的所有记录,即使某些记录在另一表中不存在。当左表和右表的ID关联时,以左表的字段为准显示数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先说说期望的效果,希望是左表和右表连接,用ID关联。如果只出现左边的数据那么就显示只有左边的数据,如果只出现右表的数据就显示右表的信息,如果都出现就以左表的字段为准。

 

首先让我们创建一个左边,包含两列:

CREATE TABLE dcp_dw_datamining.temp_a_outer
(
    id INT,
    label STRING
);

接着左边插入三条数据:

INSERT INTO dcp_dw_datamining.temp_a_outer VALUES (1,'a1'),(2,'a2'),(3,'a3');

 

接着创建一个右表:

CREATE TABLE dcp_dw_datamining.temp_b_outer
(
    id INT,
    label STRING,
    lb STRING
);
接着右表插入三条数据:
INSERT INTO dcp_dw_datamining.temp_b_outer VALUES (1,'b1','f1'),(2,'b2','f2'),(4,'b4','f4');

如果左表和右表使用INNER JOIN的语句是:

SELECT
    a.id,
    a.label,
    b.lb
FROM dcp_dw_datamining.temp_a_outer AS a
JOIN dcp_dw_datamining.temp_b_outer AS b ON a.id = b.id

结果如下,与希望的结果并不一致:

最后修改成这样:

SELECT
    CASE WHEN a.id IS NULL THEN b.id ELSE a.id END AS id,
    CASE WHEN a.label IS NULL THEN b.label ELSE a.label END AS label,
    b.lb
FROM dcp_dw_datamining.temp_a_outer AS a
FULL OUTER JOIN dcp_dw_datamining.temp_b_outer AS b ON a.id = b.id

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值