hudi系列-schema evolution

矛始

于 2024-04-15 19:31:26 发布

阅读量422

点赞数

分类专栏： hudi系列文章标签： hudi evolution 模式演变

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/czmacd/article/details/137792432

版权

hudi系列专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了Hudi的schema evolution特性，特别是在schema on read模式下的支持与实现。介绍了Hudi 0.13.1和Flink 1.14.5版本中的差异，以及Spark和Flink对schema evolution的不同支持程度。内容涵盖了添加、删除和重命名列，更改数据类型，以及Hudi中的InternalSchema、TableAvroSchema等关键概念。同时，对非schema on read模式下的读写行为、Hive同步限制和写时schema验证进行了总结。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在RFC-33中描述，hudi对schema evolution进行了统一设计，在官网文档中也指明了从0.11版本开始，spark-sql ddl是支持schema evolution的，而flink-sql在旧版本中并不支持ddl方式对表结构，所以full schema evolution都隐藏在读写过程中。对于使用者，我们最终只关心表的读和写，但从实现层面来看，schema evolution需要覆盖不同的数据文件格式，还需要集成在各种hudi的表服务中。

hudi 0.13.1
flink 1.14.5

schema on read模式

schema on read模式下才支持复杂的schema evolution，目前需要显式启用hoodie.schema.on.read.enable，否则默认是非schema on read模式

语义

hudi中提供的完整schema evolution语义如下，目前spark已经全

了解本专栏

超级会员免费看

博客等级

码龄13年

72
原创

235
点赞

521
收藏

5396
粉丝

关注

私信

热门文章

分类专栏

hudi系列付费 22篇
superset 1篇
docker 1篇
doris 1篇
flink 10篇
flink-cdc 2篇
spark 9篇
impala 3篇
机器学习 3篇
kettle 6篇
phoenix 3篇
java 9篇
tomcat 1篇
kafka 2篇
kudu 2篇
hadoop 1篇
hive 2篇
爬虫

展开全部收起

最新评论

【flink】Rocksdb TTL状态全量快照持续递增
矛始: 改掉源码将已过期key的value设置为null，而不是原来的NULL_VALUE
【flink】Rocksdb TTL状态全量快照持续递增
游.Aero: 测试将过期的value修改为null后，这个是啥意思
superset基于docker修改数据库
矛始: 我当时用的这个镜像，你试下：apache/superset:2.1.0
superset基于docker修改数据库
求水之鱼: 你好，博主这个报错怎么解决的啊？百度很多没找到有效解决办法 Exception: Can not find valid pkg-config name. Specify MYSQLCLIENT_CFLAGS and MYSQLCLIENT_LDFLAGS env vars manually
【flink】SinkUpsertMaterializer
OnlyotDN: 这里可以这么理解，Sink端的UpsertKey在文中的例子中就是Join on 的key dim_id，不包含Sink端的PrimaryKey并不包含在内，那么相同Sink PrimaryKey可能就会来自多个上游，那么就可能产生乱序问题。而这个算子就是把到Sink的记录进行拦截，将所有的记录保存在一个数组中，如果是INSERT 或者 UPDATE_AFTER 则保存后继续往下传，但是涉及到删除也就是UPDATE_BEFORE 或者 DELETE，因为存在乱序的问题，所以要注意如果删除在新增/更新之后，那么如果直接下发删除语句则会导致记录被删除，所以这里出现两种处理行为，第一种就是删完数组为空，那么下发DELETE语句没啥问题，如果删除的是最后一条且不为空，从这个数组的角度看，现在有的数组里最后一条就是当前的。这个算子很容易被误用的点就是字段中存在 CURRENT_TIMESTAMP，会导致 DELETE语句无法下发，如果状态设置得不合理，那么也会导致DELETE语句无法下发。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。