什么是 Hudi
Apache Hudi 是一个 Data Lakes 的开源方案,Hudi 是 Hadoop Updates and Incrementals 的简写,它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 能够基于 HDFS 之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi 非常轻量级,可以作为 lib 与 Spark、Flink 进行集成
Hudi 官网:

Hudi 基于 Parquet 列式存储与 Avro 行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在 HDFS 数据集上提供插入更新、增量拉取、全量拉取。Hudi 具有如下特点:
-
快速 upsert,可插入索引。
-
以原子方式操作数据并具有回滚功能。
-
写入器和查询之间的快照隔离。
-
用于数据恢复的 savepoint 保存点。Hudi 通过 Savepoint 来实现数据恢复。
-
管理文件大小,使用统计数据布局。
-
行和列数据的异步压缩。
ApacheHudi是Uber开发的开源DataLakes工具,支持在HDFS上管理大型分析数据集,提供插入、更新和增量消费功能,降低数据延迟。它采用Parquet和Avro存储,优化文件大小,支持快速upsert和数据恢复的Savepoint机制,可与Spark、Flink集成。
1848

被折叠的 条评论
为什么被折叠?



