Dinky项目实战：使用MySQL CDC实现整库同步至PostgreSQL-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01040/article/details/148578458

Dinky项目实战：使用MySQL CDC实现整库同步至PostgreSQL

dinky Dinky is an out-of-the-box, one-stop, real-time computing platform dedicated to the construction and practice of Unified Streaming & Batch and Unified Data Lake & Data Warehouse. Based on Apache Flink, Dinky provides the ability to connect many big data frameworks including OLAP and Data Lake. 项目地址: https://gitcode.com/gh_mirrors/di/dinky

概述

本文将详细介绍如何在Dinky项目中配置和使用MySQL CDC(Change Data Capture)功能，实现MySQL数据库到PostgreSQL的整库同步。CDC技术能够捕获数据库的变更事件，是构建实时数据管道的重要技术手段。

环境准备

依赖组件安装

在开始配置前，需要确保以下组件已正确安装：

PostgreSQL连接器：
- 需要将PostgreSQL的JDBC驱动jar包放置在以下位置：
  - Flink的lib目录
  - Dinky的extends目录
- 如果使用Application或Per-Job提交模式，还需将jar包上传至HDFS
MySQL CDC连接器：
- 同样需要将MySQL CDC连接器的jar包放置在：
  - Flink的lib目录
  - Dinky的extends目录
- Application/Per-Job模式下也需要上传至HDFS

重要提示：如果在Flink和Dinky服务启动后才添加这些jar包，必须重启服务，或者使用Dinky提供的ADD CUSTOMJAR功能动态加载。

配置详解

下面是一个完整的MySQL CDC到PostgreSQL的同步配置示例，我们将逐项解析关键参数：

EXECUTE CDCSOURCE cdc_postgresql WITH (
 'connector' = 'mysql-cdc',
 'hostname' = '127.0.0.1',
 'port' = '3306',
 'username' = 'root',
 'password' = '123456',
 'checkpoint' = '3000',
 'scan.startup.mode' = 'initial',
 'parallelism' = '1',
 'table-name' = 'bigdata\.products,bigdata\.orders',
 'sink.connector' = 'jdbc',
 'sink.url' = 'jdbc:postgresql://127.0.0.1:5432/test',
 'sink.username' = 'test',
 'sink.password' = '123456',
 'sink.sink.db' = 'test',
 'sink.table.prefix' = 'test_',
 'sink.table.lower' = 'true',
 'sink.table-name' = '#{tableName}',
 'sink.driver' = 'org.postgresql.Driver',
 'sink.sink.buffer-flush.interval' = '2s',
 'sink.sink.buffer-flush.max-rows' = '100',
 'sink.sink.max-retries' = '5'
)

源端(MySQL CDC)配置

基本连接参数：
- connector: 指定为mysql-cdc
- hostname: MySQL服务器地址
- port: MySQL服务端口
- username/password: 数据库认证信息
CDC特有参数：
- scan.startup.mode: 指定初始快照模式，'initial'表示从初始状态开始捕获
- table-name: 指定要捕获的表，支持正则表达式，示例中捕获bigdata库的products和orders表
性能参数：
- checkpoint: 检查点间隔(毫秒)
- parallelism: 并行度设置

目标端(PostgreSQL)配置

基本连接参数：
- sink.connector: 指定为jdbc
- sink.url: PostgreSQL连接URL
- sink.driver: JDBC驱动类名
表名处理：
- sink.table.prefix: 目标表名前缀
- sink.table.lower: 是否将表名转为小写
- sink.table-name: 使用#{tableName}占位符，运行时会被替换为实际表名
写入优化参数：
- sink.sink.buffer-flush.interval: 缓冲刷新间隔
- sink.sink.buffer-flush.max-rows: 缓冲最大行数
- sink.sink.max-retries: 最大重试次数