这是一个大数据和数据仓库领域中非常核心的概念。我们来详细讲解一下全量存储、增量存储和拉链存储的区别。
这三种存储方式代表了处理数据变化的三种不同策略,各有其适用场景和优缺点。
1. 全量存储 (Full Storage)
核心思想:每天(或每个周期)都存储一份完整的、最新的数据快照。它只关心数据的最终状态,不记录任何历史变化。
工作方式:
- 在T+1日(例如第二天),系统会从数据源(如业务数据库)抽取全部数据。
- 然后覆盖或直接保存到目标存储(如HDFS)中,文件路径通常包含日期,例如:
/user_order/full/dt=20240321/ - 第二天(
dt=20240322)又会生成一个全新的、完整的数据快照。
举例:
假设有一张用户表 user:
| user_id | name | age | city |
|---|---|---|---|
| 1 | 张三 | 25 | 北京 |
| 2 | 李四 | 30 | 上海 |
- 2024-03-21的全量快照:存储了上面两条记录。
- 2024-03-22,李四的年龄从30岁更新为31岁。
- 2024-03-22的全量快照:会存储更新后的全部数据:
user_id name age city 1 张三 25 北京 2 李四 31

最低0.47元/天 解锁文章
569

被折叠的 条评论
为什么被折叠?



