Hudi学习1:概述

Hudi 概念

Hudi跟hive很像,不存储数据,只是管理hdfs数据。

1.小文件处理

2.增加支持update、delete等操作

3.实时数据写入

以下是官方点介绍:

Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie

Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、数据集群/压缩和并发性,同时将数据保持为开源文件格式。

支持流批一体

支持多种查询引擎(包括Apache Spark、Flink、Presto、Trino、Hive)

具体的概念可以查看官网Overview | Apache Hudi

本次学习以0.11.0版本为例

核心概念

如果您对Apache Hudi还比较陌生,那么熟悉几个核心概念是很重要的:

Hudi Timeline–Hudi 如何管理交易和其他表服务

Hudi文件存储-文件在存储中的布局方式

Hudi表类型–––COW(COPY_ON_WRITE)和MOR(MERGE_ON_READ)

Hudi查询类型–快照查询、增量查询、读取优化查询

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值