数据湖(二):什么是 Hudi

什么是 Hudi

Apache Hudi 是一个 Data Lakes 的开源方案,Hudi 是 Hadoop Updates and Incrementals 的简写,它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 能够基于 HDFS 之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。

Hudi 非常轻量级,可以作为 lib 与 Spark、Flink 进行集成

Hudi 官网:

https://hudi.apache.org

Hudi 基于 Parquet 列式存储与 Avro 行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在 HDFS 数据集上提供插入更新、增量拉取、全量拉取。Hudi 具有如下特点:

  • 快速 upsert,可插入索引。

  • 以原子方式操作数据并具有回滚功能。

  • 写入器和查询之间的快照隔离。

  • 用于数据恢复的 savepoint 保存点。Hudi 通过 Savepoint 来实现数据恢复。

  • 管理文件大小,使用统计数据布局。

  • 行和列数据的异步压缩。

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值