Iceberg的V2格式

最新推荐文章于 2025-12-02 02:02:06 发布

原创

最新推荐文章于 2025-12-02 02:02:06 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

这是我的第102篇原创文章

【V1与V2简介】

Iceberg在V1的格式中定义了，如何使用不可变类型的文件（Parquet、ORC、AVRO）来管理大型分析型的表，包括元数据文件、属性、数据类型、表的模式，分区信息，以及如何写入与读取。

而在V2的格式中，在V1的基础上增加了如何通过这些类型的表实现行级别的更新与删除功能。其最主要的改变是引入了delete file记录需要删除的行数据，这样可以在不重写原有（数据）文件的前提下，实现行数据的更新与删除。

【行级别删除的原理】

1. DeleteFile的表示

在V1版本中，只有DataFile的概念，即记录添加到iceberg中的行数据集。而DeleteFile（删除文件）则记录的是被删除的行的数据集。

删除行数据的方式分为两种：Equality Deletes和Position Deletes。

所谓Equality Deletes就是等值删除，指定一个或多个列的值，其中包含该列值的每一行数据都被视为已删除。例如删除id=10的数据；而Position Deletes为位置删除，删除指定文件中指定位置的行数据。

在V2版本在清单列表文件中（snap-xxx.avro）中增加了一个字段content，以标识哪些文件是DataFile，哪些是DeleteFile。content的值，0表示数据文件、1表示删除数据文件。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

陈猿解码

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Iceberg表规范】表格式版本、系统架构、Sequence Numbers和Row-level Deletes

Bulut0907

04-26

1883

目录1. Format Versioning表格式版本2. Overview2.1 Sequence Numbers序列号2.2 Row-level Deletes3. Specification规范3.1 v1和v2版本的Writer和reader兼容性要求 1. Format Versioning表格式版本表格式有版本1和版本2，可以通过format-version参数进行指定，默认值是1 版本1: 分析型数据表使用的是不可变的文件格式：parquet、avro、orc 版本2：行级更新和删除当进

Iceberg v2表创建

laohu的博客

09-01

402

id int,age int。

参与评论您还未登录，请先登录后发表或查看评论

Pony性能基准测试：与主流编程语言的终极对比分析

最新发布

gitblog_00600的博客

12-02

755

想要了解Pony编程语言在性能方面的真正实力吗？🤔 今天我们将深入分析这个基于Actor模型的现代编程语言，通过与主流语言进行全面的基准测试对比，揭示其在高并发场景下的卓越表现！ Pony是一个开源、基于Actor模型、具备能力安全性的高性能编程语言，专为构建高并发、可扩展的系统而设计。在前100个词中，我们已经明确了Pony的核心功能：它是一个基于Actor模型的现代编程语言，具备高性能和并

iceberg系列（2）：存储详解-partition-2

杂记

02-17

1614

iceberg分区演化可以通过添加、删除、重命名或重新排序分区规范字段来改进表分区。

IceBerg的自我学习（2）

Zekisofdope的博客

05-10

843

个人建议：新项目最好都优先使用V2，除非是纯增量写入就选择V1。

Iceberg Catalog

qq_36070104的博客

03-01

1253

Iceberg Catalog

初识 Apache Iceberg 及自动化 Iceberg 表维护（小文件治理）

weixin_39750695的博客

07-05

2421

Apache Iceberg 架构迁徙及自动化小文件治理方案

Apache Iceberg Research

yisuoyanyv的博客

06-01

1332

Apache iceberg 的感性认知，架构，业务，特性，优点

第二章：Apache Iceberg的架构

孤独的流星，生活的弃子

09-04

1156

本文翻译自：若侵权，留言删除在本章中，我们将通过深入讨论 Apache Iceberg 的架构设计和规范来了解Iceberg 表是如何及解决Hive中固有的问题的。我们将介绍 Iceberg 不同结构的表以及每种结构提供和实现的功能，以便您更好的了解底层的实现原理，并更好地构建基于 Apache Iceberg 的湖仓一体。

关于tensorboard无法读取v2文件的问题

thebeautyofmath的博客

04-08

878

使用 tensorboard --logdir "logs" 不要使用tensorboard --logdir="logs"或tensorboard --logdir=="logs"

Iceberg 表规范

xuronghao的博客

05-22

1617

Iceberg 表规范Version 1: 分析数据表Version 2:行级删除GoalsMvcc 和乐观并发文件系统操作这是 Iceberg 表格格式的规范，用于在分布式文件系统或键值存储中，将大型、缓慢变化的文件集作为表来管理。 Version 1: 分析数据表 Iceberg Version 1是当前版本。它定义了如何使用不可变的文件格式(如 Parquet、 Avro 和 ORC)来管理大型分析表。 Version 2:行级删除 Iceberg 社区目前正在开发支持编码行级删除的 Iceber

Iceberg原理和项目使用技巧

数据与算法架构提升之路专栏

02-23

4884

Iceberg 是一种表格式的规范，以及实现了这种规范的代码库，通过提供了一组 API 供计算引擎或其它进程调用。Iceberg 通过元数据文件给数据文件加了一层索引。

iceberg系列（1）：存储详解-初探1

杂记

02-17

2014

【原创】Kafka 0.11消息设计

weixin_33834628的博客

07-06

147

　　Kafka 0.11版本增加了很多新功能，包括支持事务、精确一次处理语义和幂等producer等，而实现这些新功能的前提就是要提供支持这些功能的新版本消息格式，同时也要维护与老版本的兼容性。本文将详细探讨Kafka 0.11新版本消息格式的设计，其中会着重比较新旧两版本消息格式在设计上的异同。毕竟只有深入理解了Kafka的消息设计，我们才能更好地学习Kafka所提供的各种功能。 1....

【Iceberg表规范】Position Delete Files和Equality Delete Files

Bulut0907

04-30

2830

目录1. Position Delete Files2. Equality Delete Files Row-level delete files也是一种date file，使用Iceberg的format、schemas、column projection列投影 1. Position Delete Files 包含的字段信息如下：字段ID 字段名称数据类型描述 2147483546 file_path string 要删除的一行数据的data file的path，比如hdfs://

数据湖（十六）：Structured Streaming实时写入Iceberg

Lansonli（蓝深李）的博客

07-10

1478

文章目录Structured Streaming实时写入Iceberg一、创建Kafka topic二、编写向Kafka生产数据代码三、编写Structured Streaming读取Kafka数据实时写入Iceberg四、查看Iceberg中数据结果目前Spark中Structured Streaming只支持实时向Iceberg中写入数据，不支持实时从Iceberg中读取数据，下面案例我们将使用Structured Streaming从Kafka中实时读取数据，然后将结果实时写入到Iceberg中。启动

spark 流读iceberg v1 表

celltobig的专栏

04-28

1216

spark 流读iceberg v1 表

Iceberg删除过期snapshots、老的metadata files、孤立的文件，合并data files和manifests

Bulut0907

06-24

5507

目录1. 过期snapshots的处理2. 删除老的metadata files3. 删除孤立的文件4. 合并data files5. Rewrite manifests 1. 过期snapshots的处理 Iceberg表每一次write都会产生一个新的snapshot，同时也会产生一个新的version版本。所以对于流式写入，会产生大量的snapshot。因此需要将老的snapshot标记为过期。这样新生成的vN.metadata.json文件，就不会包含过期的snapshot 当一个data file

iceberg 和doris使用

09-16

Apache Doris 对 Iceberg 多项核心特性提供了原生支持，其使用方法如下： 1. **配置 Iceberg Catalog**：支持 Hive Metastore、Hadoop、REST、Glue、Google Dataproc Metastore、DLF 等多种 Iceberg Catalog 类型，可根据实际需求进行配置 [^1]。 2. **创建 Iceberg 表**：可通过 Apache Doris 直接创建 Iceberg 表，还能使用完善的分区 Transform 函数，提供隐藏分区和分区布局演进等能力。例如创建分区 Iceberg 表的 SQL 示例如下 [^1][^5]： ```sql -- Create partitioned iceberg table -- The partition columns must be in table's column definition list CREATE TABLE sales ( ts DATETIME, user_id BIGINT, amount DOUBLE, pt1 STRING, pt2 STRING ) ENGINE=iceberg -- Iceberg 中的分区类型对应 Doris 中的 List 分区 PARTITION BY LIST (DAY(ts), pt1, pt2) () PROPERTIES ( -- 压缩格式 -- Parquet：snappy，zstd（默认），plain。（plain 就是不采用压缩） -- ORC：snappy，zlib（默认），zstd，plain。（plain 就是不采用压缩） 'write-format'='orc', 'compression-codec'='zlib' ); ``` 3. **查询 Iceberg 表**：原生支持 Iceberg V1/V2 表格式，以及 Position Delete、Equality Delete 文件的读取，还支持通过表函数查询 Iceberg 表快照历史和时间旅行（Time Travel）功能。可通过 Doris 统一查询入口完成对 Iceberg 里的数据查询分析，Iceberg 外表的数据可以和 Doris 内部数据或者 Doris 其他外部数据源的数据进行关联查询分析 [^1][^2]。 4. **导入数据**：有两种方式，Doris Broker 不会消耗 Spark 的计算资源，但增加 Iceberg 的存储消耗；而 Spark 消耗计算资源，减少存储的使用，可根据不同业务场景选择 [^4]。需要注意的是，doris 0.13 与 1.13 版的联邦查询用法不同，旧用法在新版中已废弃，可从官网查找相关用法：https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catalog/hive 、https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catalog/iceberg [^3]。