[新一代实时神器 Fluss实战] - Flink SQL 读写Fluss

最新推荐文章于 2025-04-20 12:46:57 发布

原创最新推荐文章于 2025-04-20 12:46:57 发布

· 1.2k 阅读

30 ·

版权

文章标签：

#大数据 #flink #hadoop

大数据同时被 3 个专栏收录

21 篇文章

订阅专栏

Flink

10 篇文章

订阅专栏

Fluss

4 篇文章

订阅专栏

[新一代实时神器 Fluss实战] - Flink SQL 读写Fluss

通过 Flink 读取Kafka数据写入Fluss

环境信息

Flink 1.20
Fluss 0.6.0 git master 个人build的 (使用下载的0.5.0版本有些问题，在后续会写道)
Kafka 2.7.2
hadoop 3.0.0

步骤

Flink SQL Client 启动

进入Flink安装目录，执行 ./bin/sql-client.sh启动SQL客户端命令行；

配置运行参数

checkpoint 时间：SET 'execution.checkpointing.interval' = '30s'; 作为 Flink 写入 Fluss 的 ck 时间
设置执行模式: SET execution.type = streaming ;
设置SQLClient 任务提交方式: SET 'execution.target' = 'yarn-per-job';
设置SQLClient 任务提交队列: SET 'yarn.application.queue' = 'flink';
设置SQLClient任务提交名称：SET 'yarn.application.name' = 'kafka-flink-fluss';

数据写入SQL

创建 Fluss catalog CREATE CATALOG fluss_catalog WITH ('type'='fluss','bootstrap.servers' = '10.255.10.1:9123');bootstrap.servers 为Fluss CoordinatorServer 的部署 Host 及 Port

创建Kafka流表，默认创建在 default_catalog.default_database目录下，

create table kafka_data_tb (
id string comment 'id',
create_time string   comment '创建时间',
stat_date string comment '分区时间', 
PRIMARY KEY (id,stat_date) NOT ENFORCED -- 定义主键
) with ( 
  'connector' = 'kafka', 
   'properties.bootstrap.servers' = 'xxxx:9092,xxxx:9092,xxxx:9092', 
   'scan.startup.mode'='timestamp', 
   'scan.startup.timestamp-millis' = '1735833600000', -- 指定时间戳消费
   'topic' = 'tp_fluss_kafka_test', 
   'properties.group.id' = 'tp_fluss_kafka_test-id', 
   'format' = 'debezium-json' 
);

创建 Fluss 表；Fluss 表创建在 fluss_catalog 下，后续使用只需要创建 fluss_catalog , 建表信息依旧会存在，不需要重复创建

-- 创建数据库
create database fluss_catalog.fluss;

-- 创建主键表，并设置分区
create table fluss_catalog.fluss.fluss_data_tb (
id string comment 'id',
create_time string   comment '创建时间',
stat_date string comment '分区时间', 
PRIMARY KEY (id,stat_date) NOT ENFORCED -- 定义主键
) PARTITIONED by (stat_date) 
WITH (
  'bootstrap.servers' = '10.255.10.1:9123', -- fluss CoordinatorServer 地址
  'bucket.key' = 'id', -- 分桶字段
  'bucket.num' = '4', -- 分桶数量
  'table.datalake.enabled' = 'true', -- 是否开启写入数据湖功能
  'table.auto-partition.enabled' = 'true', -- 开启自动分区
  'table.auto-partition.time-unit' = 'day' -- 分区字段的单位
)

写入 SQL

insert into fluss_catalog.fluss.fluss_data_tb select id,create_time,stat_date from kafka_data_tb;

以上及完成了 kafka 数据写入 Fluss ，Flink 运行状态

数据查询

-- 查询实时数据
select   id , create_time, stat_date from fluss_catalog.fluss.fluss_data_tb /*+ OPTIONS('scan.startup.mode' = 'latest') */;

-- 查询离线数据
select  id , create_time, stat_date from fluss_catalog.fluss.fluss_data_tb;