Flink SQL Kafka写入Hudi详解

一个数据小开发

已于 2022-04-14 13:53:46 修改

阅读量4.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：大数据 Hudi 文章标签： Hudi Flink 大数据数据湖

于 2022-04-13 14:30:10 首次发布

本文链接：https://blog.youkuaiyun.com/Aaron_ch/article/details/124144811

1、背景

前面Hudi的专栏已经详细讲解过本地如何构建这套Hudi的运行环境，在此就不在重复了，如果感兴趣想了解的可以去学习下，从0到1搭建数据湖Hudi环境_一个数据小开发的博客-优快云博客

本次重点是为了能够很好的理解Hudi的两种表COW和MOR，下面将对这两种表操作的详情进行demo操作。

2、实操

2.1、启动Flink SQL Client

export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`
./sql-client.sh embedded -j ../lib/hudi-flink-bundle_2.11-0.10.1.jar shell

2.2、启动Hadoop

2.3、创建KafkaTopic

kafka-topics.sh --create --bootstrap-server 11.238.116.75:9092 --replication-factor 1 --partitions 3 --topic hudi_flink_demo

2.4、创建Flink Kafka表和Hudi表

-- 构建kafka source表
CREATE TABLE data_gen (
   id STRING,
   name STRING,
   user_age STRING,
   user_other STRING,
   ts TIMESTAMP(3)
) WITH (
 'connector' = 'kafka',
 'topic' = 'hudi_flink_demo',
 'properties.bootstrap.servers' = 'ip:9092',
 'properties.group.id' = 'testGroup3',
 'format' = 'json',
 'scan.startup.mode' = 'earliest-offset'
);

2.4.1、COW表

-- 构建COW模式Hudi表
CREATE TABLE hudi_cow_data_gen(
  id STRING,
  name STRING,
  user_age STRING,
  user_other STRING,
  ts TIMESTAMP(3),
  PRIMARY KEY(id) NOT ENFORCED
)
WITH (
  'connector' = 'hudi',
  'path' = 'hdfs://localhost:9000/user/root/hudi/hudi_cow_data_gen',
  'table.type' = 'COPY_ON_WRITE',
  'write.insert.drop.duplicates' = 'true'
);

-- 启动任务
insert into hudi_cow_data_gen select * from data_gen;

启动成功后，可以在yarn上看到这个任务的启动状态

点击上面的“ApplicationMaster”之后可以跳转到相对应的这个任务在Flink之上运行的一个Dashboard页面

可以看到任务都运行正常，并且在hdfs上看到，数据目录已经创建成功，但是因为还没开始写入数据，所以还没有parquet数据文件产生。

往Kafka发送一条数据之后，可以发现，records received已经有一条数据了

在去看下checkpoint页面

在checkpoint成功之后，发现数据文件已经生成

把parquet文件下载下来查看下里面的内容

parquet文件读取方式


##查看schema:

java -jar  parquet-tools-1.6.0rc3-SNAPSHOT.jar  sc

最低0.47元/天解锁文章

200万优质内容无限畅学