一. hudi表设计
在较高的层次上,用于写Hudi表的组件使用了一种受支持的方式嵌入到Apache Spark作业中,它会在支持DFS的存储上生成代表Hudi表的一组文件。然后,在具有一定保证的情况下,诸如Apache Spark、Presto、Apache Hive之类的查询引擎可以查询该表。Hudi表的三个主要组件:
1)有序的时间轴元数据。类似于数据库事务日志。
2)分层布局的数据文件:实际写入表中的数据。
3)索引(多种实现方式):映射包含指定记录的数据集。

Hudi提供了以下功能来对基础数据进行写入、查询,这使其成为大型数据湖的重要模块:
1)支持快速,可插拔索引的upsert();
2)高效、只扫描新数据的增量查询;
3)原子性的数据发布和回滚,支持恢复的Savepoint;
4)使用mvcc(多版本并发控制)风格设计的读和写快照隔离;
5)使用统计信息管理文件大小;
6)已有记录update/delta的自管理压缩;
7)审核数据修改的时间轴元数据;
8)满足GDPR(通用数据保护条例)、数据删除功能。
1 时间轴
这个之前讲过,直接上连接
【hudi学习笔记】hudi基础教程-Timeline时间轴_foxofwind的博客-优快云博客
<
Hudi表设计详解:时间轴、数据文件与高效索引

本文详细介绍了Hudi表的三个关键组件:有序的时间轴元数据、分层数据文件结构和不同类型的索引。Hudi通过这些设计提供了快速upsert、增量查询和数据一致性等功能,适用于大规模数据湖处理。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



