1. 索引机制
hudi的索引机制是为了加速upsert/delete操作,它维护着(分区 + key)-> fileID之间的映射关系,所以可以减少对非必要base文件的合并
key是指索引key,可以是表的任意字段,在全局索引中常用主键key作为索引
1.1 索引类型
当前hudi支持以下类型的索引:
- INMEMORY:基于内存hashmap,为全局索引
- HBASE:基于外部存储hbase做索引,天然是全局索引
- SIMPLE, GLOBAL_SIMPLE:简单索引,将更新的key与base文件提取的key值进行join,分为全局和非全局
- BLOOM, GLOBAL_BLOOM:基于布隆过滤器,存在假阳性问题,分为全局和非全局
- BUCKET:由