hudi系列-数据写入方式及使用场景

矛始

已于 2023-03-14 19:20:49 修改

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： hudi系列文章标签：大数据 hudi

于 2023-03-14 16:51:14 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/czmacd/article/details/129532791

hudi系列专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Hudi支持的四种数据写入方式：upsert、insert、bulk_insert和bootstrap。upsert是Hudi的默认写入方式，适合需要保留变更数据的场景；insert适用于append-only数据；bulk_insert用于快速导入历史数据，不进行去重；bootstrap用于重建索引，确保全量数据去重。文中还讨论了不同写入方式对小文件优化和数据去重的影响，并提到了在Flink中应用Hudi的场景。

hudi支持多种数据写入方式：insert、bulk_insert、upsert、boostrap，我们可以根据数据本身属性(append-only或upsert)来选择insert和upsert方式，同时也支持对历史数据的高效同步并嫁接到实时流程。

这里的使用技术组合为flink + hudi-0.11

upsert

这是hudi默认的写入方式，是包含了INSERT和UPDATE两种操作，如何区分两种操作？在数据写入之前会进行一个"tag"过程，即通过查找索引来确定记录的位置，如果是UPDATE操作，那么我们会得到记录的旧位置，否则将会为INSERT的记录分配一个新位置，"相同"的记录被组织在一起，还能进行小文件方面的优化。这种写入方式适合数据会更新(不会重复)而且需要保留变更数据的场景(Changelog Mode),结合flink进行近实时流式计算。

insert

单纯的插入操作，由于不需要判断记录是否属于更新，因此省略了"tag"过程，速度会比upsert快得多，但是不能保证数据是去重的，对于append-only的数据(日志、行为)很适合使用这种方式

MOR表：采用的小文件优化策略与upsert一样，就是少维护了基于flink状态的全局索引
COW表：每次写都会直接生成新的parquet文件，写过程并不会进行小文件优化，但可以通过clustering进行来重新调整。

了解本专栏

超级会员免费看

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。