问题描述:
往Hudi MOR(Merge On Read)表增量写数据,发现数据并没有按主键合并,存在重复数据.
| 主键 | ... | 分区 |
| 1 | ... | P_1 |
| 2 | ... | P_1 |
| 1 | ... | P_2 |
| 3 | ... | P_2 |
| 4 | ... | P_2 |
解决方法:
经分析重复数据只存在于不同分区内,如主键为1的数据,同分区内不存在重复数据。基于此可以使用全局(布隆)索引并设置HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION为true.
出于性能考虑,Hudi默认只对同分区内的数据去重,需要全局去重需要开启全局索引

针对Hudi MergeOnRead表在增量写入时出现的跨分区重复数据问题,解决方案是启用全局(布隆)索引,并设置HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION为true,以实现全局数据去重。默认情况下,Hudi仅处理同分区内的数据去重,开启全局索引可以确保全表范围内的唯一性。
440

被折叠的 条评论
为什么被折叠?



