HUDI preCombinedField 总结

董可伦

已于 2022-10-30 14:35:12 修改

阅读量4.9k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： Spark Hudi 文章标签： Hudi Spark 数据湖

于 2022-01-04 19:37:02 首次发布

本文链接：https://blog.youkuaiyun.com/dkl12/article/details/122309954

Spark 同时被 2 个专栏收录

78 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

Hudi

46 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文总结了Hudi的preCombinedField在Spark SQL和DataFrame中的使用，包括预合并逻辑、去重规则以及如何影响数据更新。在Spark DF中，无论是UPSERT还是INSERT，预合并字段ts用于去重并决定保留哪条记录。SQL建表时，预合并字段可以通过配置控制去重策略。源码解读部分探讨了ts字段的必要性和相关异常处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

总结 HUDI preCombinedField,分两大类总结，一类是Spark SQL,这里指的是merge，因为只有merge语句中有多条记录，讨论preCombinedField才有意义；一类是Spark DF，HUDI0.9版本支持SQL建表和增删改查

总结

先说结论：

Spark DF建表写数据时（含更新）：
1、UPSERT，当数据重复时（这里指同一主键对应多条记录），程序在写数据前会根据预合并字段ts进行去重，去重保留ts值最大的那条记录，且无论新记录的ts值是否大于历史记录的ts值，都会覆盖写，直接更新。
2、INSERT时，没有预合并，程序依次写入，实际更新为最后一条记录，且无论新记录的ts值是否大于历史记录的ts值，都会覆盖写，直接更新。
Spark SQL建表，写数据时（含更新）：
有ts时，预合并时如果数据重复取预合并字段值最大的那条记录，最大值相同的取第一个。写数据时，ts值大于等于历史ts值，才会更新，小于历史值则不更新。
没有ts时，则默认将主键字段的第一个值作为预合并字段，如果数据重复，去重时会取第一个值，写数据时，直接覆盖历史数据（因为这里的预合并字段为主键字段，等于历史值，其实原理跟上面有ts时一样）