Iceberg的V2格式

这是我的第102篇原创文章

【V1与V2简介】

Iceberg在V1的格式中定义了,如何使用不可变类型的文件(Parquet、ORC、AVRO)来管理大型分析型的表,包括元数据文件、属性、数据类型、表的模式,分区信息,以及如何写入与读取。

而在V2的格式中,在V1的基础上增加了如何通过这些类型的表实现行级别的更新与删除功能。其最主要的改变是引入了delete file记录需要删除的行数据,这样可以在不重写原有(数据)文件的前提下,实现行数据的更新与删除。

【行级别删除的原理】

1. DeleteFile的表示

在V1版本中,只有DataFile的概念,即记录添加到iceberg中的行数据集。而DeleteFile(删除文件)则记录的是被删除的行的数据集。

删除行数据的方式分为两种:Equality Deletes和Position Deletes。

所谓Equality Deletes就是等值删除,指定一个或多个列的值,其中包含该列值的每一行数据都被视为已删除。例如删除id=10的数据;而Position Deletes为位置删除,删除指定文件中指定位置的行数据。

在V2版本在清单列表文件中(snap-xxx.avro)中增加了一个字段content,以标识哪些文件是DataFile,哪些是DeleteFile。content的值,0表示数据文件、1表示删除数据文件。

Apache Doris 对 Iceberg 多项核心特性提供了原生支持,其使用方法如下: 1. **配置 Iceberg Catalog**:支持 Hive Metastore、Hadoop、REST、Glue、Google Dataproc Metastore、DLF 等多种 Iceberg Catalog 类型,可根据实际需求进行配置 [^1]。 2. **创建 Iceberg 表**:可通过 Apache Doris 直接创建 Iceberg 表,还能使用完善的分区 Transform 函数,提供隐藏分区和分区布局演进等能力。例如创建分区 Iceberg 表的 SQL 示例如下 [^1][^5]: ```sql -- Create partitioned iceberg table -- The partition columns must be in table's column definition list CREATE TABLE sales ( ts DATETIME, user_id BIGINT, amount DOUBLE, pt1 STRING, pt2 STRING ) ENGINE=iceberg -- Iceberg 中的分区类型对应 Doris 中的 List 分区 PARTITION BY LIST (DAY(ts), pt1, pt2) () PROPERTIES ( -- 压缩格式 -- Parquet:snappy,zstd(默认),plain。(plain 就是不采用压缩) -- ORC:snappy,zlib(默认),zstd,plain。(plain 就是不采用压缩) 'write-format'='orc', 'compression-codec'='zlib' ); ``` 3. **查询 Iceberg 表**:原生支持 Iceberg V1/V2格式,以及 Position Delete、Equality Delete 文件的读取,还支持通过表函数查询 Iceberg 表快照历史和时间旅行(Time Travel)功能。可通过 Doris 统一查询入口完成对 Iceberg 里的数据查询分析,Iceberg 外表的数据可以和 Doris 内部数据或者 Doris 其他外部数据源的数据进行关联查询分析 [^1][^2]。 4. **导入数据**:有两种方式,Doris Broker 不会消耗 Spark 的计算资源,但增加 Iceberg 的存储消耗;而 Spark 消耗计算资源,减少存储的使用,可根据不同业务场景选择 [^4]。 需要注意的是,doris 0.13 与 1.13 版的联邦查询用法不同,旧用法在新版中已废弃,可从官网查找相关用法:https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catalog/hive 、https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catalog/iceberg [^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值