hive中拉链表

最新推荐文章于 2024-09-22 20:03:47 发布

原创

最新推荐文章于 2024-09-22 20:03:47 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

拉链表在数据量大且字段变化不频繁但需记录历史状态的场景下使用，能节省空间并满足统计需求。在数仓中通常通过begin_date和end_date字段表示记录的生命周期。本文以Hive为例，介绍了如何创建和更新拉链表，以保持订单状态的历史快照。

在有些情况下，为了保持历史的一些状态，需要用拉链表来做，这样做目的在可以保留所有状态的情况下可以节省空间。

拉链表适用于以下几种情况吧

数据量有点大，表中某些字段有变化，但是呢变化的频率也不是很高，业务需求呢又需要统计这种变化状态，每天全量一份呢，有点不太现实，

不仅浪费了存储空间，有时可能业务统计也有点麻烦，这时，拉链表的作用就提现出来了，既节省空间，又满足了需求。

一般在数仓中通过增加begin_date,en_date来表示，如下例，后两列是start_date和end_date.

 
         1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20 
        
         1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21 
        
         1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31 
        
         2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20 
        
         2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31 
        
         3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21 
        
         3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31 
        
         4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21 
        
         4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31 
        
         5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

begin_date表示该条记录的生命周期开始时间，end_date表示该条记录的生命周期结束时间；

end_date = ‘9999-12-31’表示该条记录目前处于有效状态；

如果查询当前所有有效的记录，则select * from order_his where dw_end_date = ‘9999-12-31′

如果查询2016-08-21的历史快照，则select * from order_his where begin_date <= ‘2016-08-21′ and end_date >= ‘2016-08-21’

再简单介绍一下拉链表的更新：

假设以天为维度，以每天的最后一个状态为当天的最终状态。

以一张订单表为例，如下是原始数据，每天的订单状态明细

 
         1   2016-08-20  2016-08-20  创建 
        
         2   2016-08-20  2016-08-20  创建 
        
         3   2016-08-20  2016-08-20  创建 
        
         1   2016-08-20  2016-08-21  支付 
        
         2   2016-08-20  2016-08-21  完成 
        
         4   2016-08-21  2016-08-21  创建 
        
         1   2016-08-20  2016-08-22  完成 
        
         3   2016-08-20  2016-08-22  支付 
        
         4   2016-08-21  2016-08-22  支付 
        
         5   2016-08-22  2016-08-22  创建

根据拉链表我们希望得到的是

 
         1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20 
        
         1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21 
        
         1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31 
        
         2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20 
        
         2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31 
        
         3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21 
        
         3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31 
        
         4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21 
        
         4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31 
        
         5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31