Flink CDC

最新推荐文章于 2025-06-07 17:03:33 发布

知知之之

最新推荐文章于 2025-06-07 17:03:33 发布

阅读量530

点赞数 4

分类专栏：大数据文章标签：开源

本文链接：https://blog.youkuaiyun.com/weixin_35973945/article/details/142526666

版权

大数据专栏收录该内容

9 篇文章

订阅专栏

全增量一体化架构

自 2.0 版本起，Flink CDC 引入了增量快照框架，实现了数据库全量和增量数据的一体化读取，并可以在全量和增量读取之间进行无缝切换。在读取全量数据时，Flink CDC source 会首先将数据表中的已有数据根据主键分布切分成多个 chunk（如上图中的绿色方块所示），并将 chunk 分发给多个 reader 进行并发读取。

对于数据变化频繁、已有数据较多的数据库，在全量同步过程中已同步的数据可能会发生变化。一些数据集成工具的解决方案是在读取前获取表锁阻止数据变更，再进行全量数据读取，然而这种方案会对在线业务造成较大影响。为解决该问题，Flink CDC 的增量快照框架引入了水位线（watermark）的概念：在启动全量同步前，首先获取数据库当前最新的 binlog 位点，记为低水位线（low watermark），如上图中的蓝色方块所示，随后启动全量读取。

在所有全量数据读取完成后，CDC source 会再次获取最新的 binlog 位点，并记为高水位线（high watermark），如上图中第二个蓝色方块所示。位于高低水位线之间、与被捕获表相关的 binlog 事件（上图中的黄色方块）即为全量数据在读取阶段发生的数据变化，CDC source 会将这部分增量数据合并至现有快照，合并完成后即可获得与源数据库完全一致的实时快照，并且在此过程中无需对数据库进行加锁，不会影响线上业务的正常运行。