我们需要将源数据库数据同步至数仓,此时涉及数据同步策略,具体应该如何选择对应的数据更新机制呢?
参照:
表类别 | 数据量 | 描述 | 增长变化方式 | 同步策略 | |
实体表 | 中等 | 一般指客观存在的对象,如用户、课程、商品等 | 增加、变化 | 近期每日全量,远期拉链表,更久远存磁盘 | |
维度表 | 常规维度 | 小 | 一般是指对应一些业务状态,代码的解释表,也可以称之为码表。比如地区表,订单类型,支付类型,商品类别等 | 每日全量 | |
固定维度 | 小 | 不变 | 无需同步 | ||
事实表 | 事务型事实表 | 大 | 一旦发生不再改变 | 增加 | 每日增量 |
周期型事实表 | 大 | 随业务周期性推进而变化,如订单状态,未支付、已支付等 | 增加、变化 | 拉链/全量 |