Flink SQL Kafka写入Hudi详解

1、背景

        前面Hudi的专栏已经详细讲解过本地如何构建这套Hudi的运行环境,在此就不在重复了,如果感兴趣想了解的可以去学习下,从0到1搭建数据湖Hudi环境_一个数据小开发的博客-优快云博客

        本次重点是为了能够很好的理解Hudi的两种表COW和MOR,下面将对这两种表操作的详情进行demo操作。

2、实操

2.1、启动Flink SQL Client

export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`
./sql-client.sh embedded -j ../lib/hudi-flink-bundle_2.11-0.10.1.jar shell

2.2、启动Hadoop

2.3、创建KafkaTopic

kafka-topics.sh --create --bootstrap-server 11.238.116.75:9092 --replication-factor 1 --partitions 3 --topic hudi_flink_demo

2.4、创建Flink Kafka表和Hudi表

-- 构建kafka source表
CREATE TABLE data_gen (
   id STRING,
   name STRING,
   user_age STRING,
   user_other STRING,
   ts TIMESTAMP(3)
) WITH (
 'connector' = 'kafka',
 'topic' = 'hudi_flink_demo',
 'properties.bootstrap.servers' = 'ip:9092',
 'properties.group.id' = 'testGroup3',
 'format' = 'json',
 'scan.startup.mode' = 'earliest-offset'
);

 2.4.1、COW表

-- 构建COW模式Hudi表
CREATE TABLE hudi_cow_data_gen(
  id STRING,
  name STRING,
  user_age STRING,
  user_other STRING,
  ts TIMESTAMP(3),
  PRIMARY KEY(id) NOT ENFORCED
)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs://localhost:9000/user/root/hudi/hudi_cow_data_gen',
  'table.type' = 'COPY_ON_WRITE',
  'write.insert.drop.duplicates' = 'true'
); 
-- 启动任务
insert into hudi_cow_data_gen select * from data_gen;

启动成功后,可以在yarn上看到这个任务的启动状态

点击上面的“ApplicationMaster”之后可以跳转到相对应的这个任务在Flink之上运行的一个Dashboard页面

可以看到任务都运行正常,并且在hdfs上看到,数据目录已经创建成功,但是因为还没开始写入数据,所以还没有parquet数据文件产生。

往Kafka发送一条数据之后,可以发现,records received已经有一条数据了

 

 在去看下checkpoint页面

在checkpoint成功之后,发现数据文件已经生成

 把parquet文件下载下来查看下里面的内容

 parquet文件读取方式


##查看schema:

java -jar  parquet-tools-1.6.0rc3-SNAPSHOT.jar  sc
Flink SQL 提供了强大的流批一体处理能力,可以通过 Kafka 作为数据源,消费实时数据,并通过 Hive Connector 将数据写入 Hive 中,实现批处理操作。Flink 使用 `HiveCatalog` 可以统一管理 Hive 表,并支持流式和批处理模式[^2]。 ### Kafka 数据源配置 在 Flink SQL 中消费 Kafka 数据时,需要定义 Kafka 的连接信息以及数据格式。以下是一个典型的 Kafka 表定义示例: ```sql CREATE TABLE kafka_source ( `ts` TIMESTAMP(3) METADATA FROM 'timestamp', `user_id` STRING, `event_type` STRING, `event_time` STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'your_kafka_topic', 'properties.bootstrap.servers' = 'localhost:9092', 'properties.group.id' = 'flink-sql-demo-group', 'format' = 'json' ); ``` ### Hive 表定义与写入 为了将 Kafka 数据写入 Hive,需要先定义目标 Hive 表结构,并通过 `HiveCatalog` 管理。以下是一个 Hive 表的定义示例: ```sql CREATE TABLE hive_sink ( `user_id` STRING, `event_type` STRING, `event_time` STRING ) PARTITIONED BY (`dt` STRING) WITH ( 'connector' = 'hive', 'hive-table' = 'default.kafka_events', 'hive-partition-selector' = 'dynamic' ); ``` 在写入 Hive 时,可以使用 Flink SQL 的 `INSERT INTO` 语句将 Kafka 数据写入 Hive 表中: ```sql INSERT INTO hive_sink SELECT user_id, event_type, event_time, event_time AS dt FROM kafka_source; ``` 上述语句会将 Kafka 消费的数据写入 Hive 表中,并根据 `event_time` 字段进行动态分区[^2]。 ### 批处理模式 Flink 支持以批处理模式运行作业,这可以通过设置执行模式来实现。在提交作业时,可以指定执行模式为 `BATCH`: ```sql SET 'execution.runtime-mode' = 'BATCH'; ``` 这样,Flink 会以批处理的方式消费 Kafka 数据,并一次性写入 Hive 表中。这种方式适用于需要一次性处理历史数据的场景。 ### 性能优化建议 1. **分区与压缩**:在写入 Hive 表时,合理设置分区字段和压缩格式可以提高查询性能和存储效率。 2. **动态分区**:使用 `hive-partition-selector` 设置为 `dynamic` 可以根据数据内容自动创建分区,避免手动管理分区。 3. **并行写入**:通过调整 Flink 作业的并行度,可以提高数据写入 Hive 的吞吐量。 ### 总结 Flink SQL 提供了灵活的 Kafka 和 Hive 集成能力,能够以批处理模式消费 Kafka 数据并写入 Hive 表中。通过合理配置分区、压缩和执行模式,可以实现高效的数据处理流程。
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值