目录
数据增量类型介绍
业务生产库中的数据增量情况有如下几种:
- 流水新增数据
无修改删除(类似日志流水数据) - 常规业务变化数据
含增删改(类似商品库存信息) - 优化的业务变化数据
含增删改动作,以流水记账方式体现(类似商品销售退货信息)
三种增量类型的具体介绍
流水新增数据
无修改删除(类似日志流水数据)
流水新增数据,只有insert。所以历史数据是不会修改的,数据只会增加。
譬如:
1月底,统计的今年(全年)商品销售情况:
| ID |
商品 |
销量 |
|---|---|---|
| 1 | 上衣 | 100 |
| 2 | 裤子 | 100 |
2月底,统计的今年(全年)商品销售情况:
| ID |
商品 |
销量 |
|---|---|---|
| 1 | 上衣 | 100 |
| 2 | 裤子 | 100 |
| 3 | 裤子 | 50 |
2月底,统计的今年(全年)商品销售情况:
| ID |
商品 |
销量 |
|---|---|---|
| 1 | 上衣 | 100 |
| 2 | 裤子 | 100 |
| 3 | 裤子 | 50 |
| 4 | 裤子 | 30 |
只有新增数据,没有修改或者删除的数据。
常规业务变化数据
含增删改(类似商品库存信息),譬如:
我们拿个公司职员工资单的例子,体会下增量数据的变化。
1月公司的职员工资单如下:
| 唯一ID |
姓名 |
收入 |
|---|---|---|
| 1 | 张三 | 300 |
| 2 | 李四 | 350 |
2月公司的职员工资单如下(insert,新聘用1名员工):
| 唯一ID |
姓名 |
收入 |
|---|---|---|
| 1 | 张三 | 300 |
| 2 | 李四 | 350 |
| 3 | 王五 | 360 |
3月公司的职员工资单如下(update,2名员工涨薪):
| 唯一ID |
姓名 |
收入 |
|---|---|---|
| 1 | 张三 | 400 |
| 2 | 李四 | 450 |
| 3 | 王五 | 360 |
4月公司的职员工资单如下(delete,1名员工离职):
| 唯一ID |
姓名 |
收入 |
|---|---|---|
| 1 | 张三 | 400 |
| 3 | 王五 | 360 |
数据变化,直接在原数据上变化,只能通过捕获数据变化日志,或者通过触发器等方法感知数据变化情况。
优化的业务变化数据
含增删改动作,以流水记账方式体现,我们仍然用上面公司职员工资单的例子。
1月公司的职员工资单如下:
| 唯一ID |
姓名 |
收入 |
动作 |
时间 |
|---|---|---|---|---|
| 1 | 张三 | 300 | insert | 1月 |
| 2 | 李四 | 350 | insert | 1月 |
2月公司的职员工资单如下(insert,新聘用1名员工):
| 唯一ID |
姓名 |
收入 |
动作 |
时间 |
|---|---|---|---|---|
| 1 | 张三 | 300 | insert | 1月 |
| 2 | 李四 | 350 | insert | 1月 |
| 3 | 王五 | 360 | insert | 2月 |
3月公司的职员工资单如下(update,2名员工涨薪):
| 唯一ID |
姓名 |
收入 |
动作 |
时间 |
|---|---|---|---|---|
| 1 | 张三 | 300 |

本文探讨大数据数仓中的三种增量数据类型:流水新增、常规业务变化和优化的业务变化,并详细阐述了数仓中增量数据的处理方法,包括数据例子、数仓分层、ODS层数据同步及不同合并方案的优缺点。
最低0.47元/天 解锁文章
431

被折叠的 条评论
为什么被折叠?



