Hive中拉链表

在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。

拉链表适用于以下几种情况吧

数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实,

不仅浪费了存储空间,有时可能业务统计也有点麻烦,这时,拉链表的作用就提现出来了,既节省空间,又满足了需求。

一般在数仓中通过增加begin_date,end_date来表示,如下例,后两列是start_date和end_date.

1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21
1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31
2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31
3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21
3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31
4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21
4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31
5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

begin_date表示该条记录的生命周期开始时间,end_date表示该条记录的生命周期结束时间;

end_date = ‘9999-12-31’表示该条记录目前处于有效状态;

如果查询当前所有有效的记录,则select * from order_his where dw_end_date = ‘9999-12-31′

如果查询2016-08-21的历史快照,则select * from order_his where begin_date <= ‘2016-08-21′ and end_date >= ‘2016-08-21’

再简单介绍一下拉链表的更新:

假设以天为维度,以每天的最后一个状态为当天的最终状态。

以一张订单表为例,如下是原始数据,每天的订单状态明细

1   2016-08-20  2016-08-20  创建
2   2016-08-20  2016-08-20  创建
3   2016-08-20  2016-08-20  创建
1   2016-08-20  2016-08-21  支付
2   2016-08-20  2016-08-21  完成
4   2016-08-21  2016-08-21  创建
1   2016-08-20  2016-08-22  完成
3   2016-08-20  2016-08-22  支付
4   2016-08-21  2016-08-22  支付
5   2016-08-22  2016-08-22  创建

根据拉链表我们希望得到的是

1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21
1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31
2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31
3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21
3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31
4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21
4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31
5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

可以看出 1,2,3,4每个订单的状态都有,并且也能统计到当前的有效状态。

本例以hive为例,只考虑到实现,与性能无关

首先创建表

CREATE TABLE orders (
orderid INT,
createtime STRING,
modifiedtime STRING,
status STRING
) row format delimited fields terminated by '\t'
 
 
CREATE TABLE ods_orders_inc (
orderid INT,
createtime STRING,
modifiedtime STRING,
status STRING
) PARTITIONED BY (day STRING)
row format delimited fields terminated by '\t'
 
 
CREATE TABLE dw_orders_his (
orderid INT,
createtime STRING,
modifiedtime STRING,
status STRING,
dw_start_date STRING,
dw_end_date STRING
) row format delimited fields terminated by '\t' ;

首先全量更新,我们先到2016-08-20为止的数据。

初始化,先把2016-08-20的数据初始化进去

INSERT overwrite TABLE ods_orders_inc PARTITION (day = '2016-08-20')
SELECT orderid,createtime,modifiedtime,status
FROM orders
WHERE createtime < '2016-08-21' and modifiedtime <'2016-08-21';

刷到dw中

INSERT overwrite TABLE dw_orders_his
SELECT orderid,createtime,modifiedtime,status,
createtime AS dw_start_date,
'9999-12-31' AS dw_end_date
FROM ods_orders_inc
WHERE day = '2016-08-20';

如下结果

select * from dw_orders_his;
OK
1  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31
2  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31
3  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31

剩余需要进行增量更新

INSERT overwrite TABLE ods_orders_inc PARTITION (day = '2016-08-21')
SELECT orderid,createtime,modifiedtime,status
FROM orders
WHERE (createtime = '2016-08-21'  and modifiedtime = '2016-08-21') OR modifiedtime = '2016-08-21';
 
select * from ods_orders_inc where day='2016-08-21';
OK
1  2016-08-20  2016-08-21  支付 2016-08-21
2  2016-08-20  2016-08-21  完成 2016-08-21
4  2016-08-21  2016-08-21  创建 2016-08-21

先放到增量表中,然后进行关联到一张临时表中,在插入到新表中

DROP TABLE IF EXISTS dw_orders_his_tmp;
CREATE TABLE dw_orders_his_tmp AS
SELECT orderid,
createtime,
modifiedtime,
status,
dw_start_date,
dw_end_date
FROM (
    SELECT a.orderid,
    a.createtime,
    a.modifiedtime,
    a.status,
    a.dw_start_date,
    CASE WHEN b.orderid IS NOT NULL AND a.dw_end_date > '2016-08-21' THEN '2016-08-21' ELSE a.dw_end_date END AS dw_end_date
    FROM dw_orders_his a
    left outer join (SELECT * FROM ods_orders_inc WHERE day = '2016-08-21') b
    ON (a.orderid = b.orderid)
    UNION ALL
    SELECT orderid,
    createtime,
    modifiedtime,
    status,
    modifiedtime AS dw_start_date,
    '9999-12-31' AS dw_end_date
    FROM ods_orders_inc
    WHERE day = '2016-08-21'
) x
ORDER BY orderid,dw_start_date;
 
INSERT overwrite TABLE dw_orders_his
SELECT * FROM dw_orders_his_tmp;

在根据上面步骤把2016-08-22号的数据更新进去,最后结果如下

select * from dw_orders_his;
OK
1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21
1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31
2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20
2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31
3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21
3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31
4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21
4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31
5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

至此,就得到了我们想要的数据。

### Hive拉链的具体示例及用法 #### 1. 创建拉链结构 在构建拉链之前,需要定义其基本结构。通常情况下,拉链会包含以下几个字段: - `id`:唯一标识符。 - `start_date`:记录生效日期。 - `end_date`:记录失效日期(常用特殊值示当前有效,如 '9999-12-31')。 - `data_columns`:存储实际业务数据的列。 以下是创建用户信息拉链的一个例子: ```sql CREATE TABLE dws_user_his ( user_id STRING, name STRING, age INT, start_date DATE, end_date DATE ) PARTITIONED BY (dt STRING); ``` 此用于保存用户的变更历史,并通过 `start_date` 和 `end_date` 来标记每一条记录的有效时间范围[^3]。 --- #### 2. 初始化拉链 首次加载时,可以从源(ODS )中提取全量数据并将其作为初始版本写入拉链。假设有一个名为 `ods_user_full` 的全量用户,则可以通过如下 SQL 完成初始化: ```sql INSERT OVERWRITE TABLE dws_user_his PARTITION(dt='initial_load') SELECT user_id, name, age, current_date AS start_date, '9999-12-31' AS end_date FROM ods_user_full; ``` 这条语句将所有用户的最新状态导入到拉链中,并设置默认结束时间为远期值[^3]。 --- #### 3. 更新拉链逻辑 当每天新增或修改某些用户的信息时,需基于增量更新(如 `ods_user_update`),调整现有拉链的内容。具体流程分为两步: - **关闭旧记录**:对于发生变动的用户 ID,在原拉链中标记这些记录为已过期(即将它们的 `end_date` 设置为当天日期)。 - **插入新记录**:将最新的用户信息追加至拉链,并赋予新的起始时间和未到期标志。 以下是一个完整的更新脚本: ```sql -- Step 1: 关闭旧记录 UPDATE dws_user_his SET end_date = CURRENT_DATE WHERE dt = 'latest_partition' AND user_id IN (SELECT DISTINCT user_id FROM ods_user_update); -- Step 2: 插入新记录 INSERT INTO dws_user_his PARTITION(dt=CURRENT_DATE) SELECT t.user_id, t.name, t.age, CURRENT_DATE AS start_date, '9999-12-31' AS end_date FROM ods_user_update t; ``` 需要注意的是,如果使用的是 Hive 默认引擎而非支持事务的操作环境,则可能需要用临时中间来模拟上述过程[^3]。 --- #### 4. 查询特定时间点的状态 利用拉链的优势之一是可以轻松查询任意时刻的历史快照。例如,要获取某一天 (`2023-01-01`) 所有的活跃用户列,可执行以下查询: ```sql SELECT * FROM dws_user_his WHERE dt >= '2023-01-01' AND start_date <= '2023-01-01' AND end_date > '2023-01-01'; ``` 该条件筛选出了那些在指定日期范围内有效的记录[^1]。 --- #### 5. 处理特殊情况——汇率转换场景下的应用 针对引用提到的汇率拉链案例,可以采用类似的思路实现日连续流水生成。下面展示了一个简单的 UDF 方法辅助处理缺失值的情况: ```java package udf; import org.apache.hadoop.hive.ql.exec.UDF; public class GetNotNull extends UDF { private static String lrkey = null; private static String lrvalue = null; public String evaluate(String key, String value) { if (key.equals(lrkey)) { if (value.isEmpty()) { value = lrvalue; } else { lrvalue = value; } } else { lrkey = key; lrvalue = value; } return value; } } ``` 这个自定义函数能够在遇到重复键但为空值的情况下返回最近一次非空的结果[^2]。 --- ### 注意事项 为了保障数据一致性和准确性,在设计与维护拉链的过程中应特别注意以下几点: - 防止因并发写入引发冲突; - 明确分区策略以便高效管理大规模数据集; - 测试边界条件以验证算法鲁棒性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值