Hudi
文章平均质量分 65
hzp666
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Magnus:面向大规模机器学习工作负载的综合数据管理方法
Magnus是一个专为大规模机器学习工作负载设计的创新数据管理系统。针对传统数据湖表格式在存储效率、元数据管理和更新性能等方面的不足,Magnus提出了多项优化方案:1)自主研发Krypton列式格式和Blob多模态格式,显著提升存储和读取效率;2)通过消除冗余统计信息和构建索引优化元数据管理,使解析效率比Iceberg快5-26倍;3)支持轻量级的列级更新和主键Upsert机制;4)针对LLM和LRM等大模型训练场景,采用双表设计和分片机制进行优化。实验表明,Magnus在存储空间、读写性能和训练效率上均原创 2025-10-17 15:33:44 · 1122 阅读 · 0 评论 -
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2
Hudi 默认依赖的 Hadoop 为 Hadoop2.x,要兼容 Hadoop3.x,则需要修改 Hudi 源码。找到镜像依赖配置,添加新的下载依赖,我这里选用的阿里云依赖,必须放在第一个,否则不会起作用。找到镜像属性配置的那里,添加镜像,我这里选用的阿里云镜像。,而 Hudi 本身用的 jetty 版本是。需要 10 分钟左右,等待依赖下载完成。出现如下界面,表示 Hudi 编译成功。,其携带的 jetty 版本是。,存在依赖冲突,会造成编译错误。文件,修改组件的对应版本号。编译完成后,相关的包都在。转载 2023-04-04 10:40:12 · 2641 阅读 · 0 评论 -
Hudi学习 6:Hudi使用
1.安装hdfs2.安装spark3.安装Scalaspark-shell 写入和读取hudi。原创 2024-02-04 09:27:53 · 882 阅读 · 0 评论 -
Hudi集成Spark之并发控制-并行写入
针对写入操作(upsert、insert等)利用乐观并发控制来启用多个writer将数据写到同一个表中,Hudi支持文件级的乐观一致性,即对于发生在同一个表中的任何2个提交(写入),如果它们没有写入正在更改的重叠文件,则允许两个写入都成功。基于前面DeltaStreamer的例子,使用Delta Streamer消费kafka的数据写入到hudi中,这次加上并发写的参数。(4)zk下产生了对应的目录,/multiwriter_test下的目录,为代码里指定的lock_key。3)查看zk是否产生新的目录。转载 2023-09-27 09:40:11 · 477 阅读 · 0 评论 -
Hudi学习5:Hudi的helloworld-编译源码
hudi是使用java代码编写的。原创 2023-06-30 14:46:59 · 534 阅读 · 0 评论 -
Hudi学习6:安装和基本操作
Hudi数据集的组织目录结构与Hive表示非常相似,一份数据集对应这一个根目录。数据集被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件。■在根目录下,每个分区都有唯一的分区路径,每个分区数据存储在多个文件中。■每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时,多个文件共享相同的fileId,但会有不同的commit。■每条记录由记录的key值进行标识并映射到一个fileId。转载 2023-06-30 10:49:50 · 4527 阅读 · 0 评论 -
Hudi学习4:Hudi架构
原创 2024-02-04 09:30:33 · 739 阅读 · 0 评论 -
Hudi的MOR和COW表模式
Apache Hudi提供了不同的表类型供根据不同的需求进行选择,提供了两种类型的表在深入研究 COW 和 MOR 之前,让我们先了解一下 Hudi 中使用的一些术语,以便更好地理解以下部分。转载 2023-06-27 09:47:23 · 3311 阅读 · 0 评论 -
Hudi学习3:数据湖主流架构
支持flink,并且支持快速upsert/ delete。iceberg表可以扩展。原创 2023-06-21 16:31:04 · 192 阅读 · 0 评论 -
Hudi学习2:数仓和数据湖介绍
2.解决了数仓必须分层,数据湖直接存储原始数据,不需要分层,直接用于应用。1.数仓无法存储非结构化数据(图像、音视频等)的问题。性价比:分层可能存在冗余。原创 2023-05-24 11:05:10 · 395 阅读 · 0 评论 -
Hudi学习1:概述
Apache Hudi 是一个支持插入、更新、删除的增量处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie。Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、数据集群/压缩和并发性,同时将数据保持为开源文件格式。支持流批一体支持多种查询引擎(包括Apache Spark、Flink、Presto、Trino、Hive)具体的概念可以查看官网。原创 2023-05-09 10:35:49 · 887 阅读 · 0 评论 -
基于Apache Hudi + MinIO 构建流式数据湖
Hudi 包含许多非常强大的增量查询功能,元数据是其中的核心,允许将大型提交作为较小的块使用,并完全解耦数据的写入和增量查询。文件夹中,在我们的例子中是存储桶。为了展示 Hudi 更新数据的能力,我们将对现有行程记录生成更新,将它们加载到 DataFrame 中,然后将 DataFrame 写入已经保存在 MinIO 中的 Hudi 表中。表格式由表的文件布局、表的模式(Schema)和跟踪表更改的元数据组成。Hudi 的设计预计基于键的快速更新插入和删除,因为它使用文件组的增量日志,而不是整个数据集。转载 2022-12-11 18:49:43 · 799 阅读 · 0 评论 -
数据湖的简介
从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事:后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被转载 2022-02-24 16:56:51 · 363 阅读 · 0 评论 -
数据湖和数据仓库区别介绍
数据湖是用来存储什么样的数据呢?数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗?数据湖与Delta Lake的关系是?数据湖可以替代数据仓库吗?简单对比下数据湖与数据仓库。数据湖存储起来非常方便,为了保证敏捷开发,是无需管理的,对吗?Apache Hudi是干什么的?仅仅实现增删改查吗?基于Hudi的数据湖数据是以什么方式存储的?Hudi有元数据吗?元数据存储在哪儿?Hudi是以什么方式与Spark进行整合的?1从数据仓库到数据湖1仓库.转载 2020-12-30 16:26:30 · 9140 阅读 · 0 评论
分享