JAVA后端开发——“全量同步”和“增量同步”

原创已于 2025-07-28 14:11:21 修改 · 1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #java #后端

于 2025-07-28 10:22:15 首次发布

JAVA开发专栏收录该内容

14 篇文章

订阅专栏

“全量同步”和“增量同步”是数据处理、系统集成和数据库领域中两个基本概念。描述了两种截然不同的数据同步策略，理解它们的区别对于设计任何数据系统都至关重要。

全量同步

核心思想：全部替换，一步到位。

在技术上，全量同步通常意味着：

清空目标：将目标数据库中的相关表完全清空 (TRUNCATE 或 DELETE)。
拉取全部：从源头（如第三方API）获取所有数据。
重新插入：将获取到的所有数据全部插入到目标表中。

优点

逻辑简单：实现起来非常直观，不需要复杂的判断逻辑。
数据强一致性：同步完成后，目标数据和源数据一定是完美匹配的。

缺点

性能开销巨大：无论数据是否变化，每次都要传输和处理全部数据，对网络和数据库造成巨大压力。
服务中断：在“清空”和“完全插入”之间，存在一个数据服务不可用的时间窗口。数据量越大，中断时间越长。
不适合大数据量：当数据量达到百万、千万级别时，全量同步几乎是不可行的。

增量同步

在技术上，增量同步意味着：

识别变更：通过某种机制，找出自上次同步以来，源头数据发生了哪些变化（新增、修改、删除）。
应用变更：只对这些发生变化的数据，在目标数据库中执行对应的 INSERT、UPDATE、DELETE 操作。

如何识别变更？

这通常需要源系统的支持，常见机制有：

时间戳：基于记录的 update_time 字段，只拉取时间戳晚于上次同步时间的数据。
版本号/状态位：通过版本号或一个专门的状态字段来标记记录是否被修改。
日志/消息队列：源系统将所有数据变更（增删改）作为一个事件发送到消息队列中，目标系统消费这些事件即可。
比对：拉取全量数据在内存中与本地数据进行比对（效率较低，但有时是唯一选择）。“标记-更新-清理”策略就是一种高级的比对方式。

优点

性能极高：只传输和处理少量变更数据，网络和数据库开销极小。
服务无中断：数据服务始终可用，用户无感知。
实时性强：可以实现非常高频率的同步（例如每分钟一次），甚至是准实时的。

缺点

逻辑更复杂：需要精确地处理增、删、改三种情况，尤其是“删除”操作的识别往往比较棘手。
可能依赖源系统：最高效的增量同步通常需要源数据表有良好的设计（如包含 update_time 字段）。

在任何需要长期、稳定运行的生产环境中，增量同步都是首选且专业的解决方案。

“标记-更新-清理”策略详解

“标记-更新-清理”是一种在源系统不提供增量变更日志的情况下，实现目标系统与源系统数据同步的高级策略。它通过一次全量数据的拉取和一次数据库的 UPSERT 操作，在保证业务无中断的前提下，以最小化的数据库写入开销完成新增、更新和删除的全流程同步。

第一阶段：标记 (Mark)

在同步任务开始前，于应用程序内存中生成一个本次同步任务全局唯一的同步标记（sync_marker），通常是一个UUID或时间戳。这个标记将作为识别“存活”数据的“通行证”。

第二阶段：更新与应用标记 (UPSERT & Apply Mark)

此阶段是策略的核心。程序会遍历从源系统（API）获取的全量数据集中的每一条记录，并针对每一条记录，向目标数据库执行一条 UPSERT SQL语句（在MySQL中即 INSERT ... ON DUPLICATE KEY UPDATE）。

这条 UPSERT 语句的构造至关重要：

INSERT 部分：包含了该记录的所有业务字段以及本次任务的 sync_marker。
ON DUPLICATE KEY UPDATE 部分：同样列出了所有可能需要更新的业务字段（用新值更新旧值），并且也必须包含对 sync_marker 字段的更新。

UPSERT 这个词本身是 UPDATE + INSERT 的组合，它的核心含义就是根据情况自动选择执行 UPDATE 还是 INSERT。INSERT ... ON DUPLICATE KEY UPDATE 这个 SQL 语句正是 UPSERT 思想在 MySQL 中的具体实现。
INSERT ... ON DUPLICATE KEY UPDATE 是一个条件分支语句，这个分支判断是由数据库自动完成的，对我们写代码的人来说是透明的。

当这条“万能”的 UPSERT 语句作用于数据库中的一条已存在记录时：

应用程序不会也无需在执行前对数据进行任何比对。它发送的指令，意图上是要求更新所有业务字段和标记字段。
决策的复杂性被完全委托给了数据库的存储引擎（如InnoDB）。引擎在收到更新指令后，会先读取记录的当前值，然后逐个字段地将新值与旧值进行内部比对。

如果仅 sync_marker 字段的值不同，而所有业务字段的值均相同，引擎会识别出这几乎是一次“空更新”。它只会执行一次轻量级更新，物理上仅修改 sync_marker 这个短字段，产生的I/O和日志开销极小。
如果业务字段和 sync_marker 字段的值都发生了变化，引擎则会执行一次重度更新，记录并修改所有发生变更的字段。

因此，该策略通过发送一条统一的、看似复杂的更新指令，巧妙地利用了数据库底层的优化机制，自动地、高效地完成了对不同变更情况的差异化处理，而无需增加应用层的代码复杂度。

第三阶段：清理 (Sweep & Delete)

在所有源数据都完成 UPSERT 操作后，目标数据表中所有“存活”的记录都已被标记上了新的 sync_marker。此时，执行一条简单的 DELETE 语句：

DELETE FROM target_table WHERE sync_marker IS NULL OR sync_marker != 'current_sync_marker_value';

这条语句可以精准、高效地删除掉那些在本次同步中未被“触碰”（即在源系统中已不存在）的过时记录。

与全量同步的区别

“标记-更新-清理”策略虽然在网络层面与全量同步一样需要拉取全量数据，但它通过将比对的复杂性下推给数据库引擎，实现了在业务无中断的前提下，对数据库的写入操作进行最小化，从而在可用性、性能、数据一致性上，全面超越了传统的“先删后插”式全量同步。它是一种用中等实现复杂度换取系统在生产环境中稳定、高效运行的专业解决方案。