hudi的bucket.index相关配置

原创

已于 2023-05-11 19:13:38 修改 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-05-10 11:18:21 首次发布

Hudi的BUCKET.index配置涉及多个参数，如bucket.engine、hash.field、num.buckets等，用于优化数据存储和检索。这些配置在不同引擎如Spark、Flink上默认值不同，支持HBase、Bloom等多种索引类型，并提供了索引分裂和合并的阈值控制。

hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。

配置项名	默认值	说明	引入版本
hoodie.index.type	默认值和引擎有关，Flink上默认值为FLINK_STATE，Spark上默认值为SIMPLE，Java应用的默认值为INMEMORY	索引类型，可取值：HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_SIMPLE、BUCKET、FLINK_STATE
hoodie.index.class	“”	指定索引类，必须为 HoodieIndex 的子类，自带的有 SparkHoodieHBaseIndex、HoodieBloomIndex、FlinkInMemoryStateIndex、HoodieSimpleBucketIndex、HoodieSparkConsistentBucketIndex