数据湖（二）：什么是 Hudi

最新推荐文章于 2024-07-03 12:42:21 发布

原创最新推荐文章于 2024-07-03 12:42:21 发布 · 286 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据湖专栏收录该内容

35 篇文章

订阅专栏

ApacheHudi是Uber开发的开源DataLakes工具，支持在HDFS上管理大型分析数据集，提供插入、更新和增量消费功能，降低数据延迟。它采用Parquet和Avro存储，优化文件大小，支持快速upsert和数据恢复的Savepoint机制，可与Spark、Flink集成。

什么是 Hudi

Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 能够基于 HDFS 之上管理大型分析数据集，可以对数据进行插入、更新、增量消费等操作，主要目的是高效减少摄取过程中的数据延迟。

Hudi 非常轻量级，可以作为 lib 与 Spark、Flink 进行集成

Hudi 官网：

https://hudi.apache.org

Hudi 基于 Parquet 列式存储与 Avro 行式存储，同时避免创建小文件，实现高效率低延迟的数据访问。在 HDFS 数据集上提供插入更新、增量拉取、全量拉取。Hudi 具有如下特点：

快速 upsert,可插入索引。
以原子方式操作数据并具有回滚功能。
写入器和查询之间的快照隔离。
用于数据恢复的 savepoint 保存点。Hudi 通过 Savepoint 来实现数据恢复。
管理文件大小，使用统计数据布局。
行和列数据的异步压缩。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。