Apache Iceberg 中文教程1-分支和标签

本文介绍了ApacheIceberg中的分支和标签概念,用于灵活管理快照生命周期,包括历史标签用于审计、审计分支验证数据一致性。讲解了使用SparkSQL和Java/FlinkAPI进行操作的方法。

Apache Iceberg 中文教程1-分支和标签

概述

Iceberg表格元数据维护一个快照日志,记录对表格所做的更改。快照在Iceberg中非常重要,它们用于实现读取隔离性和时间旅行查询。为了控制元数据的大小和存储成本,Iceberg提供了一些管理快照生命周期的功能,比如根据表格快照保留属性自动删除不再使用的快照和数据文件。

为了更加灵活地管理快照生命周期,Iceberg引入了分支(Branches)和标签(Tags)的概念,它们是对快照的命名引用,并且具有独立的生命周期。每个分支和标签都有自己的保留策略,用于控制其生命周期。分支表示一系列相互独立的快照,并指向该系列的最新快照。分支和标签还可以设置最大引用年龄属性,用于控制何时应该将对快照本身的引用过期。此外,分支还具有保留属性,可定义在分支上保留的最小快照数目以及在分支上保留的每个快照的最大年龄。这些属性在运行expireSnapshots过程时被使用。有关expireSnapshots算法的详细信息,请参考Iceberg规范。

使用场景

分支和标签的功能可以应用于多种使用场景,以下是其中几个示例:

  1. 历史标签:可以使用标签来保留重要的历史快照,以进行审计目的。
  2. 审计分支:可以创建一个专门的审计分支,用于验证写入工作流程,确保数据的一致性。

历史标签示例

下面是一个使用Spark SQL语法定义的保留策略示例,该策略通过标签来保留重要的历史快照:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 每周保留一个快照,持续一个月。可以通过为每个周末的快照创建一个标签,并将标签的保留时间设置为一个月来实现。
-- 为第一个周末的快照创建标签,并将标签保留7天
ALTER TABLE prod.db.table CREATE TAG `EOW-01` AS OF VERSION 7 RETAIN 7
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BigDataMLApplication

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值