1. 背景
在 0.10.1 版本下,使用默认的 index(FLINK_STATE)
,在 upsert
模式下,几十亿级别的数据更新会消耗大量内存,并且检查点(checkpoint)时间过长。因此,切换到 0.11.0 的 BUCKET
索引。
当前环境:Flink 1.13.2
+ Hudi 0.11.0
(master 2022.04.11) + COW
+ HDFS
。
关键配置项:
index.type
=BUCKET
hoodie.bucket.index.num.buckets
=256
关键词
Hudi
COW
Flink
BUCKET
FLINK_STATE
2. BUCKET 与 FLINK_STATE 的区别
FLINK_STATE
- 描述:Hudi 的
upsert
模式需要指定主键组,更新时按照主键进行更新。数据存储在 H