Flink CDC 3.0 详解

最新推荐文章于 2025-10-20 23:24:39 发布

原创

最新推荐文章于 2025-10-20 23:24:39 发布 · 2.4k 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#flink #大数据

一、Flink CDC 概述

Flink CDC 是基于数据库日志 CDC（Change Data Capture）技术的实时数据集成框架，支持全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等高级特性。配合Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现海量数据的实时集成。

Flink CDC 于2023年12月7日重磅推出其全新的 3.0 版本，3.0版本的发布对 Flink CDC 而言具有里程碑的意义，自此 Flink CDC 从捕获数据变更的Flink 数据源正式迈向为以 Flink 为基础的端到端流式 ELT 数据集成框架。

在该版本中，社区首先支持实时同步MySQL数据至 Apache Doris 和 StarRocks两条链路。

二、Flink CDC 3.0 设计动机

2.1 Flink CDC与数据同步面临的挑战

虽然 Flink CDC 有很多技术优势，社区用户增长很快，但随着 Flink CDC 项目用户基数的日益增长，以及应用场景的不断扩大，社区收到了很多用户反馈：

用户体验：只提供 Flink source，不支持端到端数据集成， SQL 和 DS API 构建作业流程复杂
维护频繁：上游数据库表结构变更非常常见，增加、删除表的业务需求普遍存在
扩展性：全量和增量阶段资源难以灵活扩缩容，千表同步、万表入湖入仓资源消耗大
中立性：项目使用 Apache License V2 协议，不属于 Apache Flink ，版权归属于 Alibaba (Ververica)

针对这些反馈，社区的 Maintainer 也在思考在 Flink CDC 的不足，思考 CDC 乃至数据集成领域面临的技术挑战：

历史数据规模大：数据库的历史数据规模大，100T+ 规模很常见
增量数据实时性要求高：数据库的增量数据业务价值高，且价值随时间递减，需要实时处理
数据的保序性：CDC 数据的加工结果通常需要强一致性语义，需要处理工具支持全局保序
表结构动态变化：增量数据随时间增长，数据对应的表结构会不断演进

在梳理这些问题时，我们也在思考，能否在 Flink CDC 项目中帮助用户解决这些技术挑战？能否为用户打磨一款面向 CDC 和海量数据集成的开源产品？

2.2 Flink CDC 3.0 定位

针对这些想法，我们在Flink CDC社区里面与Maintainer一起展开了多轮讨论和设计。最终，面向数据集成用户、面向端到端实时数据集成的框架 Flink CDC 3.0 应运而生。在产品设计上我们追求简洁，秉持以下原则和目标进行设计：

端到端体验：Flin

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。