数据湖之Hudi

最新推荐文章于 2024-01-17 15:10:18 发布

Ayanha

最新推荐文章于 2024-01-17 15:10:18 发布

阅读量684

点赞数

分类专栏： Hadoop 文章标签：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45052608/article/details/129948195

版权

Hudi是Uber开源的数据湖架构，提供COW和MOR两种数据模型。COW采用写时复制，MOR则在读时合并数据。Hudi支持Spark、Flink等多种计算引擎，并能与Hive、Impala等查询引擎配合使用，适用于实时和离线数据查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简介

Hudi是Uber公司开源的数据湖架构，它是围绕数据库内核构建的流式数据湖。
Hudi设计文件存储和管理，数据模型有2种：COW和MOR
基本使用：

hudi底层的数据可以存储到hdfs
hudi的数据文件是parquet列式存储
hudi可以使用spark/flink 来消费 kafka消息队列的数据
hudi先将数据处理为 hudi 格式的 row tables （原始表），然后原始表被 Incremental ETL (增量处理）生成一张 hudi 格式的 derived tables（派生表）
hudi 支持的查询引擎有：hive、impala、spark等
支持 spark、flink、map-reduce 等计算引擎继续对 hudi 的数据进行再次加工处理

二、数据存储结构

Hudi表的数据文件，一般使用HDFS进行存储。在HDFS种，一个Hudi表的存储文件分为两类。
在这里插入图片描述

.hoodie文件夹：存储文件合并操作的日志文件（每一次数据操作都会生成一个文件，这些文件会被陆续合并）
amricas和asia相关路径：存储实际的数据文件，按分区存储，分区的路径key可以指定
Hudi把随着时间流逝，对表的一系列CRUD操作叫做Timeline（Timeline来解决因为延迟造成的数据时序问题）࿰

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。