大数据之Hudi数据湖_基本概念_表类型_COW表_copy时write写入原理_MOR表写时读取原理_流批处理如何选择COW_MOR表_MOR和COW对比---大数据之Hudi数据湖工作笔记0008

本文介绍了Hudi中的COW(Copy On Write)表和MOR(Merge On Read)表的基本概念及工作原理。COW表在写入时复制原有数据,适合批处理;MOR表在读取时合并增量数据,适合流数据处理。两种表各有优缺点,如COW写放大问题和MOR读取延迟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

然后我们来认识hudi中的表,首先第一个COW,是写时复制

来理解一下,比如现在我们有一个文件组,那么在这个文件组中,有FileSlice1 这样一个文件片,这个文件片中存了1,2,3,这样一组数据,这个数据就是一个列式的一个parquet文件存储的,然后又来了4,5这两个数据,这个时候,他就会重新合并,原来的1,2,3这个FileSlice1,把1,2,3这个数据复制过来,和新来的4,5数据进行合并,合并以后组成一个新的FileSlice2,一个新的文件片.这个新的文件片包含了原来的FileSlice1这个文件片, 这个COPY ON WRITE 这个copy就是指的把原来的数据copy过来.

这样就产生了两个FileSlice,两个文件片,以后可以用来做时间旅行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值