hudi系列-KeyGenerator & 分区提取器

本文详细介绍了Hudi中的KeyGenerator和PartitionValueExtractor的使用,包括NonpartitionedAvroKeyGenerator、GlobalAvroDeleteKeyGenerator、SimpleAvroKeyGenerator等KeyGenerator的用法,以及HiveStylePartitionValueExtractor、SinglePartPartitionValueExtractor等PartitionValueExtractor的提取规则。内容涵盖Hudi键的生成逻辑,以及在Flink中的应用和分区提取策略。

record key与hoodie key

hudi支持数据更新,在upsert语义下,需要用记录级别的主键来表示每行数据的唯一性。主键是由record key和分区路径共同构成的

  • record key:记录键,分区下唯一,当为非分区表时等同于主键,虽然在源码中声明了a recordKey that acts as primary key for a record
  • hoodie key:由record key + 分区路径组成,所以它是真正表示主键,无论是否分区表

在flink基于状态索引写过程中,基于record key进行哈稀,即同一个record key出现在不同分区,则表示分区值发生了修改(全局索引)
基于bucket写过程中,基于hoodie key进行哈稀,即同一个record key出现在不同分区,则表示是两条不同的记录(非全局索引,不支持分区值修改)

KeyGenerator

hudi中的KeyGenerator就是从行数据中提取record key值和分区值来生成HoodieKey对象。以插件化的方式,默认提供了多种开箱即用的生成器,基本都能满足各种需求。

  public abstract String getRecordKey(GenericRecord record);
  pu
<think>嗯,用户的问题是关于Hudi和Spark的绑定集成设置配置。首先,我需要回忆一下Hudi和Spark结合的基本步骤。记得Hudi需要特定的Spark Session扩展和配置参数,比如设置Kryo序列化和HoodieSparkSessionExtension。然后,用户提到的引用里提到了不同版本的Hudi,比如0.13.0和0.14.1,可能需要注意版本兼容性,特别是Spark的版本,比如3.2.3。 用户提供的引用中有几个关键点。引用[4]提到了核心参数,比如spark.serializer和spark.sql.extensions,这些是配置Spark必须的。同时,引用[5]提供了bundle jar的下载链接,说明可能需要使用预编译的jar包来解决依赖问题。另外,引用[2]提到Spark SQL与其他组件的集成,比如Spark Streaming和MLlib,所以在配置时要确保这些组件也能正确使用Hudi。 接下来,我应该分步骤来指导用户如何配置。首先是环境准备,确保Spark和Hudi版本兼容。然后,配置Spark Session,添加必要的扩展和参数。之后是依赖管理,用户可能需要下载Hudi的bundle jar,或者通过Maven引入依赖。还需要注意Hudi表的基本操作示例,比如写入数据,这样用户能验证配置是否成功。 另外,用户可能遇到的常见问题,比如版本不匹配、类冲突、序列化问题,这些都需要在回答中提及解决方法。例如,Kryo序列化配置不正确会导致任务失败,所以需要检查spark.serializer的设置。 最后,生成相关问题,帮助用户深入理解,比如优化配置、版本升级影响和集成其他组件的方法。这样用户不仅能解决当前问题,还能扩展应用场景。</think>### Hudi与Spark绑定集成配置步骤 #### 一、环境准备 1. **版本兼容性** Hudi与Spark的版本需严格匹配,例如: - Hudi 0.14.1 + Spark 3.2.x/3.3.x[^4] - 若使用Hudi 0.13.0,需注意其已知bug(如Spark SQL扩展兼容性问题),建议升级到0.14.1[^1] 2. **依赖配置** - **方式1**:直接下载预编译的Hudi Bundle JAR(如`hudi-spark3.1-bundle_2.12-0.13.0-SNAPSHOT.jar`[^5]) - **方式2**:通过Maven引入依赖: ```xml <dependency> <groupId>org.apache.hudi</groupId> <artifactId>hudi-spark3.1-bundle_2.12</artifactId> <version>0.14.1</version> </dependency> ``` #### 二、Spark Session配置 启动Spark Shell或提交任务时需添加核心参数: ```bash spark-shell \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \ --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' \ --jars /path/to/hudi-spark-bundle.jar ``` - `KryoSerializer`:提升序列化性能 - `HoodieSparkSessionExtension`:启用Hudi的Spark SQL扩展功能[^4] #### 三、Hudi表操作示例 ```scala // 创建Hudi表 val df = spark.read.parquet("hdfs://path/to/source_data") df.write.format("hudi") .option("hoodie.table.name", "user_profile") .option("hoodie.datasource.write.operation", "upsert") .option("hoodie.datasource.write.table.type", "COPY_ON_WRITE") .mode("overwrite") .save("hdfs://path/to/hudi_table") ``` #### 四、常见问题解决 1. **类冲突** 使用`--packages`参数指定精确版本: ```bash --packages org.apache.hudi:hudi-spark3.1-bundle_2.12:0.14.1 ``` 2. **元数据管理** 通过Spark SQL Procedures执行Rollback等操作: ```sql CALL run_rollback('hudi_table', '20231012000000') ``` 需确保Hudi Procedures的版本与集群环境一致 3. **集成Spark Streaming** 实时写入时需配置Hudi的异步Compaction: ```scala .option("hoodie.cleaner.policy", "KEEP_LATEST_COMMITS") .option("hoodie.cleaner.commits.retained", 3) ``` 结合Spark Streaming可实现分钟级数据可见性[^2]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值