Flink Table 将Stream直接写入MySQL数据库

Flink Table 将Stream直接写入MySQL数据库

Flink Table提供了一个JDBCAppendTableSink,可以直接往可靠地数据库中Sink数据,下面以MySQL为例:

添加Maven的pom.xml依赖

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-jdbc_2.11</artifactId>
    <version>1.8.0</version>
</dependency>

代码如下:

public class SqlSinkJdbcStream {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 必须设置checkpoint的间隔时间,不然不会写入jdbc
        env.enableCheckpointing(5000L);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        Schema schema = new Schema()
                .field("userId", Types.STRING)
                .field("name", Types.STRING)
                .field("age", Types.STRING)
                .field("sex", Types.STRING)
                .field("createTime", Types.BIG_DEC)
                .field("updateTime", Types.BIG_DEC);

        tableEnv
                .connect(
                        new Kafka().version("0.10").topic("user").property("bootstrap.servers", "localhost:9092")
                )
                .withSchema(schema)
                .withFormat(new Json().deriveSchema())
                .inAppendMode()
                .registerTableSource("Users");

        Table table = tableEnv.sqlQuery("select userId,name,age,sex,createTime,updateTime from Users");
        DataStream<Row> result = tableEnv.toAppendStream(table, TypeInformation.of(Row.class));
        result.print();

        JDBCAppendTableSink sink = new JDBCAppendTableSinkBuilder()
                .setDBUrl("jdbc:mysql://localhost:3306/test?useSSL=false")
                .setDrivername("com.mysql.jdbc.Driver")
                .setUsername("root")
                .setPassword("root")
                .setBatchSize(1000)
                .setQuery("REPLACE INTO user(userId,name,age,sex,createTime,updateTime) values(?,?,?,?,?,?)")
                .setParameterTypes(new TypeInformation[]{Types.STRING, Types.STRING, Types.STRING, Types.STRING, Types.BIG_DEC, Types.BIG_DEC})
                .build();

        tableEnv.registerTableSink("Result",
                new String[]{"userId", "name", "age", "sex", "createTime", "updateTime"},
                new TypeInformation[]{Types.STRING, Types.STRING, Types.STRING, Types.STRING, Types.BIG_DEC, Types.BIG_DEC},
                sink);

        tableEnv.insertInto(table, "Result", new StreamQueryConfig());

        env.execute("SqlSinkJdbcStream");
    }
}
// mysql的建表语句
/*
CREATE TABLE `user` (
    `userId` varchar(10) NOT NULL,
    `name` varchar(10) DEFAULT NULL,
    `age` varchar(3) DEFAULT NULL,
    `sex` varchar(10) DEFAULT NULL,
    `createTime` varchar(20) DEFAULT NULL,
    `updateTime` varchar(20) DEFAULT NULL,
    PRIMARY KEY (`userId`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
*/

注意:需要设置checkpoint的true,设置checkpoint间隔时间。

### 实现自定义 Flink 写入 MySQL 方法 为了实现自定义的 Flink 将数据写入 MySQL 的功能,可以采用多种策略优化性能并确保事务一致性。以下是具体实现方案: #### 使用 JdbcSinkFunction 进行单条记录插入 当每批次仅需处理少量数据时,可直接利用 `JdbcSink` 提供的基础接口完成操作。 ```java // 定义 Sink 函数用于向 MySQL 插入数据 public static class MyJdbcSink extends JdbcSink<String> { public MyJdbcSink(JdbcStatementBuilder<String> statementBuilder, String query) { super(statementBuilder, query); } } DataStream<String> stream = ...; // 假设这是待处理的数据流 stream.addSink(new JdbcSink<>( (conn, str) -> { PreparedStatement ps = conn.prepareStatement("INSERT INTO my_table VALUES (?)"); ps.setString(1, str); }, "jdbc:mysql://localhost:3306/mydb", "root", "password" )); ``` 此部分代码展示了如何创建一个简单的 JDBC sink 来逐条插入字符串类型的元素[^1]。 #### 支持批量提交以提高效率 对于大规模并发场景下频繁的小规模更新请求,建议通过收集一定数量的数据后再统一提交至数据库的方式减少 I/O 开销。 ```java // 自定义 RichSinkFunction 类支持批量加载 public class BatchMysqlWriter extends RichSinkFunction<List<MyData>> { private transient Connection connection; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); Properties configProperties = new Properties(); configProperties.setProperty("user","username"); configProperties.setProperty("password","pwd"); this.connection = DriverManager.getConnection( "jdbc:mysql://host:port/dbname?useSSL=false&serverTimezone=UTC", configProperties); // 设置自动提交关闭以便手动控制事物边界 if (!this.connection.getAutoCommit()) { throw new RuntimeException("Connection should not be in auto-commit mode."); } else { this.connection.setAutoCommit(false); } } @Override public void invoke(List<MyData> value, Context context) throws SQLException { try ( PreparedStatement pstmt = connection.prepareStatement("INSERT INTO table_name (...) VALUES (?, ?, ...)")) { for(MyData data : value){ int i = 1; pstmt.setObject(i++, data.getFieldA()); ... pstmt.addBatch(); } pstmt.executeBatch(); connection.commit(); } catch (SQLException e) { connection.rollback(); throw e; } } @Override public void close() throws Exception { super.close(); if(this.connection != null && !this.connection.isClosed()){ this.connection.close(); } } } ``` 这里实现了带有批量插入特性的 `RichSinkFunction` 子类,在每次调用 `invoke()` 方法前会先积累一批次的数据再一次性发送给目标表;同时开启了显式的事务管理机制防止中途失败造成脏数据残留问题[^2]. #### 配置连接池提升资源利用率 考虑到长时间运行的应用可能会遇到过多闲置链接占用内存的情况,引入第三方库如 HikariCP 或 Apache DBCP 可有效缓解此类困扰。 ```xml <!-- Maven依赖配置 --> <dependency> <groupId>com.zaxxer</groupId> <artifactId>HikariCP</artifactId> <version>5.0.0</version> </dependency> // Java代码片段展示HikariDataSource初始化过程 private final DataSource dataSource; { HikariConfig hikariConfig = new HikariConfig(); hikariConfig.setDriverClassName("com.mysql.cj.jdbc.Driver"); hikariConfig.setUsername("..."); hikariConfig.setPassword("..."); hikariConfig.setMaximumPoolSize(10); hikariConfig.setMinimumIdle(5); hikariConfig.setIdleTimeout(Duration.ofMinutes(1).toMillis()); hikariConfig.setJdbcUrl("jdbc:mysql://.../..."); dataSource = new HikariDataSource(hikariConfig); } ``` 上述 XML 和 Java 片段共同描述了一个典型的基于 HikariCP 构建高效稳定的数据库访问层实例[^3].
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值