hudi系列-文件归档（archive）

矛始

已于 2022-11-07 16:43:13 修改

阅读量6.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hudi系列文章标签：数据库服务器运维

于 2022-09-16 15:43:18 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/czmacd/article/details/126891750

hudi系列专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Hudi的文件归档过程，包括每次commit触发的归档机制、归档Instant的选择、执行归档、删除归档文件以及归档结果的合并。归档旨在限制元数据文件数量，将较早的元数据移动到归档时间轴中。

1. 简介

hudi会不断生成commit、deltacommit、clean等类型的Instant从而形成活跃时间轴（ActiveTimeline），随着时间增长，时间轴变长，.hoodie元数据目录下的文件不断累积，为了限制元数据文件数量，需要对一些比较久远的元数据文件进行归档，保存到.hoodie/archived目录下，可以称之为归档时间轴（ArchivedTimeline）。

1.1 环境

flink 1.13.6
hudi 0.11.0
merge on read表

1.2 逻辑结构

在这里插入图片描述

2. 归档流程

2.1 每次commit触发归档

每次数据提交结束后都会触发archive操作HoodieFlinkWriteClient#postCommit，前提是开启了自动归档配置hoodie.archive.automatic

protected

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。