1. 简介
hudi会不断生成commit、deltacommit、clean等类型的Instant从而形成活跃时间轴(ActiveTimeline),随着时间增长,时间轴变长,.hoodie元数据目录下的文件不断累积,为了限制元数据文件数量,需要对一些比较久远的元数据文件进行归档,保存到.hoodie/archived目录下,可以称之为归档时间轴(ArchivedTimeline)。
1.1 环境
- flink 1.13.6
- hudi 0.11.0
- merge on read表
1.2 逻辑结构
2. 归档流程
2.1 每次commit触发归档
每次数据提交结束后都会触发archive操作HoodieFlinkWriteClient#postCommit
,前提是开启了自动归档配置hoodie.archive.automatic
protected