第四章:同步策略/存储方式
4.1 数据存储方式概述
首先弄清楚,增量同步,快照同步,增量表,全量表,拉链表之间的关系。

4.2 全量
全量表无分区,每天凌晨流程执行完后,表中的数据是截至到前一天的全部MySQL数据。全量表可能会update数据,即对某条历史数据进行更新,保存最新的那条数据,一般只包含一个文件。如果需要追溯历史数据,需要存快照表进行操作。当然对于某些业务流水数据库只会新增,不会删改,或者我们不太关注历史数据信息,存全量表也没有问题。
4.3 快照表
按天分区,分区字段为partition_date == yyyy-mm-dd.每一天的数据都是截至到那一天的MySQL的全量数据。
快照表对比全量表来说,快照表会有许多重复的数据,优点在于可以利用日期分区追溯历史数据动作。快照表如果根据日期分区创建一个文件,那么文件将会非常之多。

本文介绍了大数据同步中的四种主要数据存储方式:全量表、快照表、增量表和拉链表,详细阐述了它们的定义、适用场景及优缺点。拉链表在处理频繁更新但变化不大的数据时尤为适用,但存在错误数据难以修复的问题。
最低0.47元/天 解锁文章
8230

被折叠的 条评论
为什么被折叠?



