大数据中全量存储,增量存储,拉链存储的区别

这是一个大数据和数据仓库领域中非常核心的概念。我们来详细讲解一下全量存储、增量存储和拉链存储的区别。

这三种存储方式代表了处理数据变化的三种不同策略,各有其适用场景和优缺点。


1. 全量存储 (Full Storage)

核心思想:每天(或每个周期)都存储一份完整的、最新的数据快照。它只关心数据的最终状态,不记录任何历史变化。

工作方式

  • 在T+1日(例如第二天),系统会从数据源(如业务数据库)抽取全部数据
  • 然后覆盖或直接保存到目标存储(如HDFS)中,文件路径通常包含日期,例如:/user_order/full/dt=20240321/
  • 第二天(dt=20240322)又会生成一个全新的、完整的数据快照。

举例
假设有一张用户表 user

user_id name age city
1 张三 25 北京
2 李四 30 上海
  • 2024-03-21的全量快照:存储了上面两条记录。
  • 2024-03-22,李四的年龄从30岁更新为31岁。
  • 2024-03-22的全量快照:会存储更新后的全部数据:
    user_id name age city
    1 张三 25 北京
    2 李四 31
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值