# Apache Iceberg 中文教程2-表配置

本文详细介绍了ApacheIceberg的表配置,包括表属性(如读写行为、默认值和描述)、Catalog属性、Hadoop配置以及与HiveCatalog的集成,涉及表锁定机制和注意事项。

Apache Iceberg 中文教程2-表配置

表属性

Iceberg表支持使用表属性来配置表的行为,例如读取器的默认拆分大小。

读取属性

属性名 默认值 描述
read.split.target-size 134217728 (128 MB) 合并数据输入拆分时的目标大小
read.split.metadata-target-size 33554432 (32 MB) 合并元数据输入拆分时的目标大小
read.split.planning-lookback 10 在合并输入拆分时要考虑的bin数
read.split.open-file-cost 4194304 (4 MB) 打开文件的估计成本,在合并拆分时作为最小权重使用
read.parquet.vectorization.enabled true 控制是否使用Parquet矢量化读取
read.parquet.vectorization.batch-size 5000 Parquet矢量化读取的批处理大小
read.orc.vectorization.enabled false 控制是否使用ORC矢量化读取
read.orc.vectorization.batch-size 5000 ORC矢量化读取的批处理大小

写入属性

属性名 默认值 描述
write.format.default parquet 表的默认文件格式;parquet、avro或orc
write.delete.format.default data file format 表的默认删除文件格式;parquet、avro或orc
write.parquet.row-group-size-bytes 134217728 (128 MB) Parquet行组大小
write.parquet.page-size-bytes 1048576 (1 MB) Parquet页面大小
write.parquet.page-row-limit 20000 Parquet页面行数限制
write.parquet.dict-size-bytes 2097152 (2 MB) Parquet字典页面大小
write.parquet.compression-codec gzip Parquet压缩编解码器:zstd、brotli、lz4、gzip、snappy或uncompressed
write.parquet.compression-level null Parquet压缩级别
write.parquet.bloom-filter-enabled.column.col1 (not set) 提示Parquet为列col1编写一个Bloom过滤器
write.parquet.bloom-filter-max-bytes 1048576 (1 MB) Bloom过滤器位集的最大字节数
write.avro.compression-codec gzip Avro压缩编解码器:gzip(deflate级别9)、zstd、snappy或uncompressed
write.avro.compression-level null Avro压缩级别
write.orc.stripe-size-bytes 67108864 (64 MB) 默认ORC条带大小,以字节为单位
write.orc.block-size-bytes 268435456 (2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BigDataMLApplication

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值