【hudi学习笔记】hudi基础教程-hudi表设计

Hudi表设计详解:时间轴、数据文件与高效索引
本文详细介绍了Hudi表的三个关键组件:有序的时间轴元数据、分层数据文件结构和不同类型的索引。Hudi通过这些设计提供了快速upsert、增量查询和数据一致性等功能,适用于大规模数据湖处理。

一. hudi表设计

在较高的层次上,用于写Hudi表的组件使用了一种受支持的方式嵌入到Apache Spark作业中,它会在支持DFS的存储上生成代表Hudi表的一组文件。然后,在具有一定保证的情况下,诸如Apache Spark、Presto、Apache Hive之类的查询引擎可以查询该表。Hudi表的三个主要组件:

1)有序的时间轴元数据。类似于数据库事务日志。

2)分层布局的数据文件:实际写入表中的数据。

3)索引(多种实现方式):映射包含指定记录的数据集。

Hudi提供了以下功能来对基础数据进行写入、查询,这使其成为大型数据湖的重要模块:

1)支持快速,可插拔索引的upsert();

2)高效、只扫描新数据的增量查询;

3)原子性的数据发布和回滚,支持恢复的Savepoint;

4)使用mvcc(多版本并发控制)风格设计的读和写快照隔离;

5)使用统计信息管理文件大小;

6)已有记录update/delta的自管理压缩;

7)审核数据修改的时间轴元数据;

8)满足GDPR(通用数据保护条例)、数据删除功能。

 1 时间轴

这个之前讲过,直接上连接

【hudi学习笔记】hudi基础教程-Timeline时间轴_foxofwind的博客-优快云博客

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值