Hudi学习笔记4 - Hudi配置之Spark配置

本文详细介绍了SparkDataSource的相关配置,包括时间旅行查询的起点、Hive同步模式以及写操作的参数设定,如预合并字段、记录键和分区路径等。同时,提到了预提交验证的配置选项,用于保证数据一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark Datasource Configs

  • 读配置
配置项是否必须默认值配置说明
as.of.instantYN/A0.9.0 版本新增,时间旅行查询从哪儿开始,有两种格式的值:yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:ss,如果不指定则从最新的 snapshot 开始
hoodie.file.index.enableNtrue
hoodie.schema.on.read.enableNfalse
hoodie.datasource.streaming.startOffsetNearliest
hoodie.datasource.write.precombine.fieldNts
hoodie.datasource.read.begin.instanttimeYN/A
hoodie.datasource.read.end.instanttimeYN/A
hoodie.datasource.read.pathsYN/A
hoodie.datasource.merge.typeNpayload_combine
hoodie.datasource.query.incremental.formatNlatest_state
hoodie.datasource.query.typeNsnapshot
hoodie.datasource.read.extract.partition.values.from.pathNfalse
hoodie.datasource.read.file.index.listing.modeNlazy
hoodie.datasource.read.file.index.listing.partition-path-prefix.analysis.enabledNtrue
  • 写配置
配置项是否必须默认值配置说明
hoodie.datasource.hive_sync.modeYN/A
hoodie.datasource.write.partitionpath.fieldYN/A
hoodie.datasource.write.precombine.fieldNts
hoodie.datasource.write.recordkey.fieldYN/A
hoodie.datasource.write.table.typeNCOPY_ON_WRITE
hoodie.datasource.write.insert.drop.duplicatesNfalse如果设置为 true,则插入时()过滤掉所有重复的记录
hoodie.sql.insert.modeNupsert
hoodie.sql.bulk.insert.enableNfalse
hoodie.datasource.write.table.nameYN/A
hoodie.datasource.write.operationNupsert
hoodie.datasource.write.payload.classNSpark默认为org.apache.hudi.common.model.OverwriteWithLatestAvroPayload,Flink默认为org.apache.hudi.common.model.EventTimeAvroPayload指定Payload类
hoodie.datasource.write.partitionpath.urlencodeNfalse
hoodie.datasource.hive_sync.partition_fieldsNN/A
hoodie.datasource.hive_sync.auto_create_databaseNtrue自动创建不存在的数据库
hoodie.datasource.hive_sync.databaseNdefault
hoodie.datasource.hive_sync.tableNunknown
hoodie.datasource.hive_sync.use_jdbcNhive
hoodie.datasource.hive_sync.passwordNhive
hoodie.datasource.hive_sync.enableNfalse
hoodie.datasource.hive_sync.ignore_exceptionsNfalse
hoodie.datasource.hive_sync.use_jdbcNtrue
hoodie.datasource.hive_sync.jdbcurlNjdbc:hive2://localhost:10000Hive metastore url
hoodie.datasource.hive_sync.metastore.urisNthrift://localhost:9083Hive metastore url
hoodie.datasource.hive_sync.base_file_formatNPARQUET
hoodie.datasource.hive_sync.support_timestampNfalse
hoodie.datasource.meta.sync.enableNfalse
hoodie.clustering.inlineNfalse
hoodie.datasource.write.partitions.to.deleteYN/A逗号分隔的待删除分区列表,支持星号通配符
  • PreCommit Validator 配置
配置项是否必须默认值配置说明
hoodie.precommit.validatorsN
hoodie.precommit.validators.equality.sql.queriesN
hoodie.precommit.validators.inequality.sql.queriesN
hoodie.precommit.validators.single.value.sql.queriesN
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值