Flink CDC写入数据到kafka几种格式

最新推荐文章于 2025-06-07 09:03:59 发布

帅气迷人的老害虫

最新推荐文章于 2025-06-07 09:03:59 发布

阅读量3.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： flink 实时数仓、ETL 文章标签： kafka flink java

本文链接：https://blog.youkuaiyun.com/weixin_43861104/article/details/127788969

本文详细介绍了Flink CDC将数据写入Kafka时的三种常见格式：upsert-kafka的正常JSON格式、debezium-json格式以及changelog-json格式，探讨了各自的特点和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

flink cdc写入kafka数据格式

主要记录flink cdc写入kafka几种常见的数据格式，其中包括upsert-kafka写入后正常的json格式，debezium-json格式以及changelog-json格式。

upsert-kafka 正常json数据格式

-- insert 操作:
{
   
   "name":"魏夜游","remark":"12","pid":"12","eno":"12"}
-- update 操作:
{
   
   "name":"魏夜游update","remark":"12","pid":"12","eno":"12"}
-- delete 操作: kafka 中没有数据

debezium-json 数据格式

-- insert 操作
{
   
   "before":null,"after":{
   
   "id"

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

帅气迷人的老害虫

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CDC 实时入湖方案：MySQL＞Flink CDC＞Kafka ＆ Schema Registry＞Hudi ( Flink Connector )

Laurence的技术博客

02-20

2451

本方案的技术链路为：使用 Flink CDC 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka ，然后通过 Flink Hudi Connector 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文是《CDC 实时入湖方案：MySQL > Flink CDC > Kafka > Hudi》的增强版，在打通从源端数据库到 Hudi 表的完整链路的前提下，还额外做了如下两项工作：

37、Flink 的CDC 格式：debezium部署以及mysql示例（2）-Flink 与Debezium 实践

最新发布

gitblog_01091的博客

06-07

258

Apache Flink CDC 入门指南：实时数据集成利器解析什么是 Apache Flink CDC Apache Flink CDC 是基于 Apache Flink 构建的流式数据集成工具，它通过简化的 API 设计让用户能够轻松构建实时数据管道。与传统的编码方式不同，Flink CDC 允许用户通过 YAML 配置文件优雅地描述 ETL 逻辑，自动生成优化的 Flink 算子并提交作业...

Flink CDC 实时同步MySQL数据到Kafka

WB231444的博客

01-19

3446

flink cdc底层就是通过监控mysql的binlog日志，实时捕获到一个表或多个表的变更；所以必须开启mysql的binlog日志。mysql配置文件默认位于/etc/目录下，直接用过以下命令开启。如果cdc版本用了2.4.0出现异常的可以退回2.3.0。

通过FlinkCDC将MySQL中变更的数据写入到kafka（DataStream方式）

不会打球的摄影师不是好程序员

11-19

9253

文章目录前言一、CDC的种类？二、通过FlinkCDC将数据从MySQL导入到Kafka1.核心代码2.工具类3.可能会出现的错误及解决解决：前言 CDC的Change Data Capture（变更数据捕获）的缩写 FlinkCDC的核心思想是监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。一、CDC的种类？ CDC 主要分为基于查询和基于 Binlog 两种方式，简述两者的区别：

Spring Boot 集成 Flink CDC 实现 MySQL 到 Kafka 实时同步

RodJohnsonDoctor的专栏

05-11

417

本项目基于 Spring Boot 集成 Flink CDC，实现 MySQL 数据库到 Kafka 的实时数据同步。通过 Flink CDC 捕获 MySQL 的 Binlog 日志，结合 Apache Flink 进行流式处理，并将数据实时传输至 Kafka。技术栈包括 Spring Boot 2.3.12、Flink 1.15.4、Flink CDC 2.4.0 和 Kafka 3.x。项目结构清晰，包含核心配置、作业逻辑及数据模型，并通过 Maven 管理依赖。配置文件支持 MySQL 连接参数定义

CDC 数据入湖方案：Flink CDC ＞ Kafka ＞ Hudi

Laurence的技术博客

02-20

1173

本方案的技术链路为：使用 Flink CDC 将 MySQL 的 CDC 数据（Json 格式）接入到 Kafka ，然后通过 Flink Hudi Connector 将摄取的 CDC 数据写入到 Hudi 表中。文本是本博客的 CDC 数据入湖系列方案中最为基础的一套堆栈，架构上也比较简单，适合作为 POC 快速搭建 CDC 实时处理链路。如果寻求更加适用于生产环境的解决方案，请参考

生产级 Flink CDC 应用开发与部署：MySQL 到 Kafka 同步示例

RodJohnsonDoctor的专栏

05-11

566

本文介绍了如何将 Flink CDC 应用开发并部署为独立服务，实现 MySQL 到 Kafka 的数据同步。文章提供了完整的工程代码示例，包括工程结构、Maven 配置和核心代码实现。工程结构清晰，包含主类 CdcToKafkaJob.java、配置文件 AppConfig.java 和数据模型 User.java。Maven 配置中定义了 Flink、Flink CDC、Kafka 等依赖项，并通过 maven-shade-plugin 进行打包。核心代码展示了如何使用 Flink CDC 从 MySQ

Flink CDC 与 Kafka 集成：Snapshot 还是 Changelog？Upsert Kafka 还是 Kafka？

Laurence的技术博客

02-05

1837

我们知道，尽管 Flink CDC 可以越过 Kafka，将关系型数据库中的数据表直接“映射”成数据湖上的一张表（例如 Hudi 等），但从整体架构上考虑，维护一个 Kafka 集群作为数据接入的统一管道是非常必要的，这会带来很多收益。在 Flink CDC 之前，以 Debezium + Kafka Connect 为代表的技术组合都是将数据库的CDC数据先接入到 Kafka 中，然后再由后续的组件解析和处理。

Flink KafkaProducer

Claroja

12-24

2698

package com.claroja; import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.fl

Flink 支持的数据类型、从kafka读取自定义POJO类型的数据流

不是一枚开发

06-02

5万+

Flink 作为一个分布式处理框架，处理的是以数据对象作为元素的流。要分布式地处理这些数据，就不可避免地要面对数据的网络传输、状态的落盘和故障恢复等问题，这就需要对数据进行序列化和反序列化。 Flink 有自己一整套类型系统。Flink 使用“类型信息”（TypeInformation）来统一表示数据类型。TypeInformation 类是 Flink 中所有类型描述符的基类。它涵盖了类型的一些基本属性，并为每个数据类型生成特定的序列化器、反序列化器和比较器（1）基本类型所有 Java 基本

FlinkCDC读取MySQL并写入Kafka案例(com.alibaba.ververica)

硅谷工具人

01-06

3404

场景应用：将MySQL的变化数据转为实时流输出到Kafka中。注意版本问题，版本不同可能会出现异常，以下版本测试没问题： flink1.12.7 flink-connector-mysql-cdc 1.3.0(com.alibaba.ververica) (测试时使用1.2.0版本时会出现空指针错误) 1. MySQL的配置在/etc/my.cnf文件中，【mysqld】下面添加以下配置：...

Flink SQL 1.12 深度实践一 Kafka source (json+debezium json+复杂json)

weixin_38424594的博客

02-15

7298

# kafka source (simple json+debeizum json+复杂json) 近期主要是我花时间一步步采坑实践出来的各种细节,发现官网很多文字和配置都误差. 所以本人本着真实可靠的实践操作来给予大家的文案.希望可以帮到你 . 做实践之前,必须准备 flink 环境略 java 环境略 sql-client 开启略 docker 环境. 以备各个组件的快速运行. 一. kaf...

Flink cdc自定义format格式数据源

从大数据到人工智能的博客

10-22

2277

总览变更数据捕获 (CDC) 已成为一种流行的模式，用于从数据库捕获已提交的变更并将这些变更传播给下游消费者，例如保持多个数据存储同步并避免常见的陷阱，例如双重写入。能够轻松地将这些变更日志摄取和解释到 Table API/SQL 中一直是 Flink 社区的一个非常需要的功能，现在 Flink 1.11 可以实现。为了将 Table API/SQL 的范围扩展到 CDC 等用例，Flink 1.11 引入了具有变更日志模式的新表源和接收器接口（请参阅新的 TableSource 和 TableSin

Flink-SQL实现kafka处理后写入kafka

JustinMars的博客

10-13

2363

基本信息 kafka版本 1.13.2 topic 原始数据topic user_behavior 输出数据topic after_binlog 读取kafka原始数据 CREATE TABLE user_behavior ( id BIGINT, name STRING, flag STRING ) WITH ( 'connector.type' = 'kafka', -- 使用 kafka connector 'co

flinkSQL解析kafka数据源格式

qq_42422698的博客

05-26

519

flinksql kafka json

fink sql 读取 kafka 的数据写到 kafka

zuixue_lei的博客

03-29

1765

版本： flink 1.12 平台：streamX -- source CREATE TABLE `stg_access_its_rt_kafka` ( `message` STRING COMMENT '表数据', `table_name` STRING COMMENT '表名', `record_time` STRING COMMENT '时间yyyy-MM-dd HH:mm:ss', `ts` TIMESTAMP(3) METADATA FR..

Flink读取与写入kafka数据

ZHBR_F1的博客

01-02

7947

1. 基本概念 Flink是一款分布式的计算引擎，它可以用来做批处理，即处理静态的数据集、历史的数据集;也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果;也可以用来做一些基于事件的应用。 kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通...

如何使用Flink CDC将数据同步到Kafka中？

06-01

首先，要使用Flink CDC将数据同步到Kafka中，需要在Flink任务中引入Flink CDC库。然后，可以通过以下步骤实现数据同步： 1. 配置Flink CDC连接到源数据库：需要指定数据库类型、主机、端口、数据库名称、用户名和密码等信息。 2. 配置Flink CDC连接到目标Kafka：需要指定Kafka的地址和端口。 3. 定义数据源并创建CDC Source：使用Flink CDC提供的JDBC Source Function从源数据库中读取数据。 4. 定义数据的序列化和反序列化方法：Flink CDC会自动将从源数据库中读取的数据序列化成JSON格式，需要将其反序列化成Java对象。 5. 将数据写入Kafka：使用Flink Kafka Producer将数据写入Kafka中。下面是一个实现Flink CDC将数据同步到Kafka中的示例代码： ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 配置Flink CDC连接到源数据库 JdbcConnectionOptions connectionOptions = JdbcConnectionOptions .builder() .withDriverName("org.postgresql.Driver") .withUrl("jdbc:postgresql://localhost:5432/mydb") .withUsername("user") .withPassword("password") .build(); // 配置Flink CDC连接到目标Kafka Properties kafkaProperties = new Properties(); kafkaProperties.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092"); // 定义数据源并创建CDC Source CDCSource<RowData> source = CDCSource .<RowData>builder() .jdbcConnectionOptions(connectionOptions) .tableList("mytable") .deserializer(new RowDataDebeziumDeserializeSchema()) .build(); // 定义数据的序列化和反序列化方法 SerializationSchema<MyObject> serializationSchema = new MyObjectSerializationSchema(); DeserializationSchema<MyObject> deserializationSchema = new MyObjectDeserializationSchema(); // 将数据写入Kafka FlinkKafkaProducer<MyObject> kafkaProducer = new FlinkKafkaProducer<>( "my-topic", serializationSchema, kafkaProperties, FlinkKafkaProducer.Semantic.EXACTLY_ONCE); DataStream<MyObject> stream = env .addSource(source) .map(new MyObjectMapFunction()) .returns(MyObject.class); stream .addSink(kafkaProducer); env.execute("Flink CDC to Kafka"); ``` 在上面的示例代码中，`MyObject`代表从源数据库中读取的数据，`RowDataDebeziumDeserializeSchema`代表将从Flink CDC读取的数据反序列化成`RowData`对象，`MyObjectSerializationSchema`代表将`MyObject`对象序列化成JSON格式，`MyObjectDeserializationSchema`代表将JSON格式的数据反序列化成`MyObject`对象，`MyObjectMapFunction`代表将`RowData`对象转换成`MyObject`对象。