FlinkCDC同步mysql的demo

基于查询的 CDC：
- 离线调度查询作业，批处理。把一张表同步到其他系统，每次通过查询去获取表中最新的数据；
- 无法保障数据一致性，查的过程中有可能数据已经发生了多次变更；
- 无法保障实时性，基于离线调度存在天然的延迟。
- 影响数据库性能
基于日志的 CDC：
- 实时消费日志，流处理，例如 MySQL 的 binlog 日志完整记录了数据库中的变更，可以把 binlog 文件当作流的数据源；
- 保障数据一致性，因为 binlog 文件包含了所有历史变更明细；
- 保障实时性，因为类似 binlog 的日志文件是可以流式消费的，提供的是实时数据。
因我们的业务场景是要求近实时(分钟级)，所以必须采用基于binlog的技术，canal的demo可以参考我的另外文章。又因为初始化时需要导入全量数据(msyql到kudu)，canal得依赖其他的组件，需要保证数据完整一致性(数据不丢，不重复)，且对数据库影响小(锁表先导入全量数据，在进行增量)。操作起来较为麻烦，此时FlinkCDC闪亮登场( 如何全量，增量和精准一次可参考)。

三- FlinkCDC采集mysql 到 mysql的demo

前置条件：Mysql 必须是 5.7 或 8.0.X

1- mysql必须开启binlog

server-id         = <server-id>  # 可以自定义，但必须唯一
log_bin           = <mysql-bin>  # 可以自定义，binlog文件的前缀名
binlog_format     = ROW          # 必须是row
binlog_row_image  = FULL         # 必须是full

2- 创建一个用户，权限 SELECT, RELOAD, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT 。必须有reload

GRANT SELECT, RELOAD, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO '<flinkuser>'@'<mysqlADD>' identified by '<flinkuserPWD>';

Flink必须是 1.12以上的，如果使用flinkCDC2.0且使用flinkSQL，必须是1.13，java 8

3- 将flink-cdc-connectors的 jar包放入 <FLINK_HOME>/lib 目录下。

下载网页flink-cdc-connector(包括了 mysql postgres和mongdb)

没放入可能会包找不到的错误

org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'mysql-cdc' that implements 'org.apache.flink.table.factories.DynamicTableFactory' in the classpath.

4- 引入依赖 (注意打包成 jar的时候，不要打包进去。不然会报错)

<dependency>
  <groupId>com.ververica</groupId>
  <artifactId>flink-connector-mysql-cdc</artifactId>
  <version>2.0.0</version>
  <scope>provided</scope> <- 编译打包是不要打包进去，不然运行会报错->
</dependency>

最低0.47元/天解锁文章

19 条评论

Ares_2020 2022.12.07
第一次运行，全量数据同步到另表中，但在源表删除，修改则不同步，这是什么原因？

dorenman 2022.02.15
第一次运行，全量数据同步到另表中，但在源表删除，修改则不同步，这是什么原因？
- Ares_2020回复dorenman 2022.12.07
  确实不行啊
- Ares_2020回复gzh_coder 2022.12.07
  解决了吗
- zengok6回复gzh_coder 2022.07.07
  sql是需要设置checkpoint的，这个代码不太靠谱
- gzh_coder回复dorenman 2022.04.03
  请问解决了吗

qq_35678359 2022.01.28
main方法启动, 进程就结束了, 不能一直监听
- 龟速扣代码回复qq_35678359 2022.01.28
  " 'scan.startup.mode' = 'earliest-offset'\n" 这个去掉就能

ColaNeverGiveUp 2022.01.24
请教一下，如果说从mysql查询的语句覆盖到新建的表中可以吗
- 龟速扣代码回复ColaNeverGiveUp 2022.01.28
  flinkCDC负责读取进来变更的数据，下游你要怎么转换操作怎么存储都可以。
- ColaNeverGiveUp回复龟速扣代码 2022.01.25
  大概意思就是：flink cdc 连接mysql数据库，可以通过复杂查询之后得出的结果，将结果覆盖掉mysql原有的旧数据，实现数据同步吗
- 龟速扣代码回复ColaNeverGiveUp 2022.01.24
  没明白什么意思。是说你的表1的数据来源是查询表2吗。如果你的目标集群有了表2 和表1。在canal中是可以的, flinkCDC我没看源码，你可以试试

shy_snow 2022.01.17
我的增量数据可以同步但是存量数据没读取到,不知道哪里做的不对?
- shy_snow回复龟速扣代码 2022.01.17
  我是cdc2.1.1和flink1.13.3,我换个版本试试
- 龟速扣代码回复shy_snow 2022.01.17
  我自己用的CDC是2.0版本， flink是 1.13
- 龟速扣代码回复shy_snow 2022.01.17
  你是按照我的例子做的吗，我没有遇到这个问题。看你的报错信息是 mode不支持 [earliest-offset, specific-offset, timestamp]。可能是版本不够；也可能是你配置项名不对；最后可能是数据库用户权限没给够，1.X版本的CDC的全量需要锁权限
- shy_snow回复shy_snow 2022.01.17
  the options [earliest-offset, specific-offset, timestamp] are not supported correctly, please do not use them until they're correctly supported