Apache Iceberg 中文教程2-表配置
表属性
Iceberg表支持使用表属性来配置表的行为,例如读取器的默认拆分大小。
读取属性
| 属性名 | 默认值 | 描述 |
|---|---|---|
| read.split.target-size | 134217728 (128 MB) | 合并数据输入拆分时的目标大小 |
| read.split.metadata-target-size | 33554432 (32 MB) | 合并元数据输入拆分时的目标大小 |
| read.split.planning-lookback | 10 | 在合并输入拆分时要考虑的bin数 |
| read.split.open-file-cost | 4194304 (4 MB) | 打开文件的估计成本,在合并拆分时作为最小权重使用 |
| read.parquet.vectorization.enabled | true | 控制是否使用Parquet矢量化读取 |
| read.parquet.vectorization.batch-size | 5000 | Parquet矢量化读取的批处理大小 |
| read.orc.vectorization.enabled | false | 控制是否使用ORC矢量化读取 |
| read.orc.vectorization.batch-size | 5000 | ORC矢量化读取的批处理大小 |
写入属性
| 属性名 | 默认值 | 描述 |
|---|---|---|
| write.format.default | parquet | 表的默认文件格式;parquet、avro或orc |
| write.delete.format.default | data file format | 表的默认删除文件格式;parquet、avro或orc |
| write.parquet.row-group-size-bytes | 134217728 (128 MB) | Parquet行组大小 |
| write.parquet.page-size-bytes | 1048576 (1 MB) | Parquet页面大小 |
| write.parquet.page-row-limit | 20000 | Parquet页面行数限制 |
| write.parquet.dict-size-bytes | 2097152 (2 MB) | Parquet字典页面大小 |
| write.parquet.compression-codec | gzip | Parquet压缩编解码器:zstd、brotli、lz4、gzip、snappy或uncompressed |
| write.parquet.compression-level | null | Parquet压缩级别 |
| write.parquet.bloom-filter-enabled.column.col1 | (not set) | 提示Parquet为列col1编写一个Bloom过滤器 |
| write.parquet.bloom-filter-max-bytes | 1048576 (1 MB) | Bloom过滤器位集的最大字节数 |
| write.avro.compression-codec | gzip | Avro压缩编解码器:gzip(deflate级别9)、zstd、snappy或uncompressed |
| write.avro.compression-level | null | Avro压缩级别 |
| write.orc.stripe-size-bytes | 67108864 (64 MB) | 默认ORC条带大小,以字节为单位 |
| write.orc.block-size-bytes | 268435456 (2 |

本文详细介绍了ApacheIceberg的表配置,包括表属性(如读写行为、默认值和描述)、Catalog属性、Hadoop配置以及与HiveCatalog的集成,涉及表锁定机制和注意事项。
最低0.47元/天 解锁文章
703

被折叠的 条评论
为什么被折叠?



