Apache Iceberg 中文教程1-分支和标签
概述
Iceberg表格元数据维护一个快照日志,记录对表格所做的更改。快照在Iceberg中非常重要,它们用于实现读取隔离性和时间旅行查询。为了控制元数据的大小和存储成本,Iceberg提供了一些管理快照生命周期的功能,比如根据表格快照保留属性自动删除不再使用的快照和数据文件。
为了更加灵活地管理快照生命周期,Iceberg引入了分支(Branches)和标签(Tags)的概念,它们是对快照的命名引用,并且具有独立的生命周期。每个分支和标签都有自己的保留策略,用于控制其生命周期。分支表示一系列相互独立的快照,并指向该系列的最新快照。分支和标签还可以设置最大引用年龄属性,用于控制何时应该将对快照本身的引用过期。此外,分支还具有保留属性,可定义在分支上保留的最小快照数目以及在分支上保留的每个快照的最大年龄。这些属性在运行expireSnapshots过程时被使用。有关expireSnapshots算法的详细信息,请参考Iceberg规范。
使用场景
分支和标签的功能可以应用于多种使用场景,以下是其中几个示例:
- 历史标签:可以使用标签来保留重要的历史快照,以进行审计目的。
- 审计分支:可以创建一个专门的审计分支,用于验证写入工作流程,确保数据的一致性。
历史标签示例
下面是一个使用Spark SQL语法定义的保留策略示例,该策略通过标签来保留重要的历史快照:

- 每周保留一个快照,持续一个月。可以通过为每个周末的快照创建一个标签,并将标签的保留时间设置为一个月来实现。
-- 为第一个周末的快照创建标签,并将标签保留7天
ALTER TABLE prod.db.table CREATE TAG `EOW-01` AS OF VERSION 7 RETAIN 7

本文介绍了ApacheIceberg中的分支和标签概念,用于灵活管理快照生命周期,包括历史标签用于审计、审计分支验证数据一致性。讲解了使用SparkSQL和Java/FlinkAPI进行操作的方法。
最低0.47元/天 解锁文章
1249

被折叠的 条评论
为什么被折叠?



