Flink CDC2.4 整库实时同步MySql 到Doris

原创

已于 2023-06-29 17:49:38 修改 · 7.2k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#flink #mysql #大数据 #flink cdc #整库同步 #mysql同步doris

于 2023-06-29 17:24:59 首次发布

文章介绍了在Flink1.15.4环境下，如何利用flink-doris-connector和flink-sql-connector-mysql-cdc来实现MySQL到Doris的实时数据同步，特别是在面对表结构实时变动的需求时，通过自定义处理避免数据倾斜和提高效率。代码示例展示了FlinkCDC的配置和数据处理流程，包括全量读取、聚合操作优化以及Doris的数据写入。

环境

Flink 1.15.4

实现原因

目前有很多工具都支持无代码实现Mysql -> Doris 的实时同步

如：SlectDB 已发布的功能包

Dinky SeaTunnel TIS 等等

不过好多要么不支持表结构变动，要不不支持多sink，我们的业务必须支持对表结构的实时级变动，因为会对表字段级别的修改，字段类型更改，字段名字更改删除添加等

所以要支持整库同步且又要表结构的实时变动就要自己写

所需jar

flink-doris-connector-1.15-1.4.0.jar -- 实现一键万表同步

flink-sql-connector-mysql-cdc-2.4.0.jar --包含所有相关依赖，无需在导入debezium、cdc等等

流程

1、脚本创建库表

2、同步表结构程序

3、Flink cdc 程序

对比第一版本:使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris 效率有所提升

首次同步时keyby 后开窗聚合导致数据倾斜

聚合数据有字符串拼接改为JsonArray 避免聚合导致背压，字符串在数据量较大时拼接效率太低

Flink cdc 代码

1、FlinkSingleSync.scala

package com.zbkj.sync

import com.alibaba.fastjson2.{JSON, JSONObject,JSONArray}
import com.ververica.cdc.connectors.mysql.source.MySqlSource
import com.ververica.cdc.connectors.mysql.table.StartupOptions
import com.ververica.cdc.connectors.shaded.org.apache.kafka.connect.json.JsonConverterConfig
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema
import com.z

最低0.47元/天解锁文章

10 条评论

szcscj 2024.03.22
大佬，binlog没开启前的万表如何同步呢，当前测试开启binlog后都提示 “org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: No tables to be synchronized.”，如何能同步开启后的数据，前面的数据可以先导出到目标库，期待大佬的回复，谢谢！
- 一天两晒网回复szcscj 2024.03.27
  是新加入得表吗？我没太懂你的意思

橘子家 2023.09.22
有JAVA版本的吗[face]emoji:010.png[/face]
- 一天两晒网回复橘子家 2024.01.20
  是的
- 橘子家回复一天两晒网 2023.12.19
  大佬在郑州？
- 一天两晒网回复橘子家 2023.09.22
  没0.0，我java 太烂，基本不用java