【数据湖Hudi的概念】Key Generation和Concurrency Control

最新推荐文章于 2025-10-06 07:13:58 发布

原创

最新推荐文章于 2025-10-06 07:13:58 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hudi #key generation #concurrency控制 #时间戳KeyGenerator #复杂KeyGenerator

博客介绍了Hudi的Key生成和并发控制。Key生成方面，有SimpleKeyGenerator、ComplexKeyGenerator等多种类型，每种有不同配置和使用方式。并发控制支持MVCC和OPTIMISTIC CONCURRENCY，不同写入操作在并发时有不同表现，如upsert无重复数据，insert和bulk_insert可能有重复数据。

1. Key Generation

Hudi提供了几种key generators，key generators的通用配置如下：

Config	含义/目的
hoodie.datasource.write.recordkey.field	数据的key字段，必须包含
hoodie.datasource.write.partitionpath.field	数据的partition字段，必须包含
hoodie.datasource.write.keygenerator.class	full path的Key generator class，必须包含
hoodie.datasource.write.partitionpath.urlencode	默认为false，如果为true，partition path将按url进行编码
hoodie.datasource.write.hive_style_partitioning	默认为false，分区字段名称只有partition_field_value，如果为true，分区字段名称为：partition_field_name=partition_field_value