Apache Hudi架构设计和基本概念-优快云博客

本文链接：https://blog.youkuaiyun.com/lvlei19911108/article/details/115823481

Apache Hudi是Uber开发的用于Data Lakes的开源方案，它基于HDFS和Spark，提供高效的数据更新、插入和删除功能。Hudi支持流式原语如插入更新和增量拉取，适用于大型分析数据集。其架构整合了Batch和Streaming处理，可作为Spark、Hive、Presto等的Source和Sink。Hudi通过Timeline管理和文件索引实现数据组织，提供Copy-On-Write和Merge-On-Read两种表类型，支持多种查询类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi具有如下基本特性/能力：

Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集，主要目的是高效的减少入库延时。

Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。

Hudi在HDFS数据集上提供如下流原语：插入更新(如何改变数据集)；增量拉取(如何获取变更的数据)。

Hudi可以对HDFS上的parquet格式数据进行插入/更新操作。

Hudi通过自定义InputFormat与Hadoop生态系统(Spark、Hive、Parquet)集成。

Hudi通过Savepoint来实现数据恢复。

目前，Hudi支持Spark 2.x版本，建议使用2.4.4+版本的Spark。

基本架构

与Kudu相比，Kudu是一个支持OLTP workload的数据存储系统，而Hudi的设计目标是基于Hadoop兼容的文件系统(如HDFS、S3等)，重度依赖Spark的数据处理能力来实现增量处理和丰富的查询能力，Hudi支持Incremental Pulling而Kudu不支持。

Hudi能够整合Batch和Streaming处理的能力，这是通过利用Spark自身支持的基本能力来实现的。一个数据处理Pipeline通常由Source、Processing、Sink三个部分组成，Hudi可以作为Source、Sink，它把数据存储到分布式文件系统(如HDFS)中。

Apache Hudi在大数据应用场景中，所处的位置，如下图所示：

从上图中可见，Hudi能够与Hive、Spark、Presto这类处理引擎一起工作。Hudi有自己的数据表，通过将Hudi的Bundle整合进Hive、Spark、Presto等这类引擎中，使得这些引擎可以查询Hudi表数据，从而具备Hudi所提供的Snapshot Query、Incremental Query、Read Op