FlinkCDC 使用 FlinkSQL 方式监控 MySQL

该文介绍了如何通过FlinkCDC结合FlinkSQL来实时监控MySQL数据库中test库user_info表的变化。首先在MySQL配置中启用binlog,然后创建测试表并插入数据。接着在Flink项目中配置相关依赖,编写Java代码设置Flink环境和表定义,监听MySQL的CDC事件。最后,文中展示了在IDEA中运行示例代码后,对MySQL表进行插入和更新操作时,Flink程序如何捕获并输出这些变更。

之前写过一篇使用 FlinkCDC 的 DataStream 方式监控 MySQL 表变化的文章

FlinkCDC 实时监控 MySQL

这篇介绍下使用 FlinkCDC 的 FlinkSQL 方式监控表变化;

1、MySQL 开启 binlog

在 my.cnf 中开启 binlog,我这里指定了 test 库,然后重启 MySQL

server.id=1
log-bin=mysql-bin
binlog-do-db=test

2、在 MySQL 中创建测试库和表

mysql> create database test;
mysql> create table user_info(id int unsigned not null auto_increment primary key, username varchar(60), sex tinyint(1), nickname varchar(60), addr varchar(255))ENGINE=InnoDB default charset=utf8mb4;

先插入几条数据

mysql> insert into user_info values(null, 'zhangsan', 1, 'zhs','beijing');
mysql> insert into user_info values(null, 'lisi', 1, 'ls','shanghai');
mysql> insert into user_info values(null, 'wangwu', 1, 'ww','wangwu');

3代码

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.zsoft.flinkcdc</groupId>
    <artifactId>flinkcdc</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <flink.version>1.13.1</flink.version>
    </properties>

    <dependencies>
        <!-- FlinkCDC DataStream 方式 -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.12</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.22</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba.ververica</groupId>
            <artifactId>flink-connector-mysql-cdc</artifactId>
            <version>1.4.0</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.75</version>
        </dependency>

        <!-- FlinkCDC FlinkSQL 方式 -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner-blink_2.12</artifactId>
            <version>${flink.version}</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.0.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

运行类

com.zsoft.flinkcdc.FlinkCdcSQL.java

package com.zsoft.flinkcdc;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * 通过 Flink SQL 方式实现 FlinkCDC
 */
public class FlinkCdcSQL {
    public static void main(String[] args) throws Exception {
        // TODO 1.基本环境准备
        // 1.1 流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 1.2 表执行环境
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 1.3 设置并行度
        env.setParallelism(1);

        // TODO 2.转换动态表
        tableEnv.executeSql("CREATE TABLE user_info_binlog (" +
                " id INT NOT NULL," +
                " username STRING," +
                " sex INT," +
                " nickname String," +
                " addr String" +
                ") WITH (" +
                " 'connector' = 'mysql-cdc'," +
                " 'hostname' = 's1'," +
                " 'port' = '3306'," +
                " 'username' = 'root'," +
                " 'password' = '123456'," +
                " 'database-name' = 'test'," +
                " 'table-name' = 'user_info'" + // 不指定表名,会把库中所有表同步过来
                ")");

        tableEnv.executeSql("select * from user_info_binlog").print();

        env.execute();
    }
}

4、运行及测试

在 IDEA 中运行 FlinkCdcSQL.java

在 console 中会输出之前已经有的几条数据记录:

+----+-------------+--------------------------------+-------------+--------------------------------+--------------------------------+
| op |          id |                       username |         sex |                       nickname |                           addr |
+----+-------------+--------------------------------+-------------+--------------------------------+--------------------------------+
| +I |           1 |                       zhangsan |           1 |                            zhs |                        beijing |
| +I |           2 |                           lisi |           1 |                             ls |                       shanghai |
| +I |           3 |                         wangwu |           1 |                             ww |                         wangwu |

在 user_info 表中添加一条数据:

mysql> insert into user_info values(null, 'zhaoliu', 1, 'zl','zhaoliu');

在程序 console 中输出:

| +I |           4 |                        zhaoliu |           1 |                             zl |                        zhaoliu |

执行修改语句:

mysql> update user_info set addr='guangzhou' WHERE id=4;

在程序 console 中输出:

| -U |           4 |                        zhaoliu |           1 |                             zl |                        zhaoliu |
| +U |           4 |                        zhaoliu |           1 |                             zl |                      guangzhou |

### Flink CDC 与 Flink SQL 的主要区别 #### 技术定义与功能差异 Flink CDC 是一种基于 Apache Flink 构建的数据集成工具,专注于实时捕获数据变更并将其传输至目标存储系统。它通过 Debezium 或其他类似的框架来监控数据库的变化,并将这些变化以流的形式传递给下游系统[^1]。而 Flink SQL 则是一种声明式的查询语言,允许用户通过标准的 SQL 查询语法操作流式数据。 两者的本质区别在于: - **Flink CDC** 主要用于捕捉源系统的增量更新(如 MySQL、PostgreSQL 等),并将这些更新转化为结构化事件流。 - **Flink SQL** 提供了一种高层次抽象的方式,使开发者能够轻松编写复杂的流处理逻辑,而不必深入理解底层 API 实现细节[^2]。 --- ### 大数据处理场景下的适用性分析 #### Flink CDC 的应用场景 Flink CDC 特别适合于需要从关系型数据库中提取实时变更数据的任务。例如,在电商领域中,订单状态的变化可能需要被立即同步到 Kafka 或者 Elasticsearch 中以便进一步分析或展示。具体来说: - 当业务需求涉及频繁读取数据库表的最新变动时,可以利用 Flink CDC 来减少手动编码的工作量; - 对于跨平台迁移项目而言,比如把 Oracle 数据库迁移到 Hadoop 生态圈内的分布式文件系统上,则可以通过配置好相应的 Source Connector 完成整个流程自动化管理[^1]; 以下是使用 Python 编写的简单示例代码片段演示如何设置基本参数启动一个简单的 flink cdc job: ```python from pyflink.datastream import StreamExecutionEnvironment from pyflink.table import StreamTableEnvironment, EnvironmentSettings env = StreamExecutionEnvironment.get_execution_environment() settings = EnvironmentSettings.new_instance().in_streaming_mode().use_blink_planner().build() t_env = StreamTableEnvironment.create(env, settings) # 添加 mysql-cdc 连接器依赖项 t_env.execute_sql(""" CREATE TABLE source_table ( id INT PRIMARY KEY, data STRING ) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'localhost', 'port' = '3306', 'username' = 'root', 'password' = 'passw0rd!', 'database-name' = 'test_db', 'table-name' = 'example' ) """) result = t_env.sql_query("SELECT * FROM source_table").to_append_stream(table_sink=some_kafka_producer()) ``` 此脚本展示了怎样创建一个基础环境并通过指定插件加载来自特定 RDBMS 表格里的记录序列作为输入源头之一参与后续计算过程之中去。 --- #### Flink SQL 的应用场景 相比之下,Flink SQL 更加侧重于对已经存在于某种形式之中的连续或者离散时间维度上的大规模半结构/非结构性资料集执行各种各样的转换运算操作。典型例子包括但不限于以下几种情况: - 计算广告点击率 (CTR),即统计一段时间内某个网页链接获得多少次曝光机会以及实际产生了几次有效访问行为的比例指标; - 监控网络服务器性能瓶颈所在位置及其影响程度大小评估报告生成服务; 下面给出一段伪代码用来说明如果采用 sql 方言表达同样的逻辑会是什么样子的样子: ```sql INSERT INTO target_topic SELECT user_id, COUNT(*) AS total_clicks, SUM(IF(action='purchase', 1, 0)) AS purchases_made FROM click_events GROUP BY TUMBLE(event_time, INTERVAL '5' MINUTE), user_id; ``` 这里我们假设存在一张名为 `click_events` 的虚拟视图代表原始日志消息队列里面每条独立个体动作描述对象集合体,我们的目的是按照五分钟窗口周期聚合汇总每位用户的总浏览次数还有购买商品成功的频数分布状况然后存放到 kafka topic 上面等待下一步消费端解析应用。 --- ### 总结对比表格 | 属性 | Flink CDC | Flink SQL | |--------------------|------------------------------------|-----------------------------------| | 功能定位 | 增量数据采集 | 流数据分析 | | 输入来源支持 | 关系型数据库 | 各类流媒体协议 | | 输出目标兼容性 | 支持多种 NoSQL 存储 | 可对接任意 sink | | 易用性和开发效率 | 较高 | 非常友好 | 尽管两者都隶属于同一技术栈范畴之内,但是由于其侧重点不同所以在解决实际问题过程中往往扮演着互补角色共同协作完成复杂任务链路构建工作。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值