
Hudi
文章平均质量分 63
hzp666
这个作者很懒,什么都没留下…
展开
-
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2
Hudi 默认依赖的 Hadoop 为 Hadoop2.x,要兼容 Hadoop3.x,则需要修改 Hudi 源码。找到镜像依赖配置,添加新的下载依赖,我这里选用的阿里云依赖,必须放在第一个,否则不会起作用。找到镜像属性配置的那里,添加镜像,我这里选用的阿里云镜像。,而 Hudi 本身用的 jetty 版本是。需要 10 分钟左右,等待依赖下载完成。出现如下界面,表示 Hudi 编译成功。,其携带的 jetty 版本是。,存在依赖冲突,会造成编译错误。文件,修改组件的对应版本号。编译完成后,相关的包都在。转载 2023-04-04 10:40:12 · 2429 阅读 · 0 评论 -
Hudi学习 6:Hudi使用
1.安装hdfs2.安装spark3.安装Scalaspark-shell 写入和读取hudi。原创 2024-02-04 09:27:53 · 845 阅读 · 0 评论 -
Hudi集成Spark之并发控制-并行写入
针对写入操作(upsert、insert等)利用乐观并发控制来启用多个writer将数据写到同一个表中,Hudi支持文件级的乐观一致性,即对于发生在同一个表中的任何2个提交(写入),如果它们没有写入正在更改的重叠文件,则允许两个写入都成功。基于前面DeltaStreamer的例子,使用Delta Streamer消费kafka的数据写入到hudi中,这次加上并发写的参数。(4)zk下产生了对应的目录,/multiwriter_test下的目录,为代码里指定的lock_key。3)查看zk是否产生新的目录。转载 2023-09-27 09:40:11 · 327 阅读 · 0 评论 -
Hudi学习5:Hudi的helloworld-编译源码
hudi是使用java代码编写的。原创 2023-06-30 14:46:59 · 496 阅读 · 0 评论 -
Hudi学习6:安装和基本操作
Hudi数据集的组织目录结构与Hive表示非常相似,一份数据集对应这一个根目录。数据集被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件。■在根目录下,每个分区都有唯一的分区路径,每个分区数据存储在多个文件中。■每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时,多个文件共享相同的fileId,但会有不同的commit。■每条记录由记录的key值进行标识并映射到一个fileId。转载 2023-06-30 10:49:50 · 4102 阅读 · 0 评论 -
Hudi学习4:Hudi架构
原创 2024-02-04 09:30:33 · 627 阅读 · 0 评论 -
Hudi的MOR和COW表模式
Apache Hudi提供了不同的表类型供根据不同的需求进行选择,提供了两种类型的表在深入研究 COW 和 MOR 之前,让我们先了解一下 Hudi 中使用的一些术语,以便更好地理解以下部分。转载 2023-06-27 09:47:23 · 2195 阅读 · 0 评论 -
Hudi学习3:数据湖主流架构
支持flink,并且支持快速upsert/ delete。iceberg表可以扩展。原创 2023-06-21 16:31:04 · 152 阅读 · 0 评论 -
Hudi学习2:数仓和数据湖介绍
2.解决了数仓必须分层,数据湖直接存储原始数据,不需要分层,直接用于应用。1.数仓无法存储非结构化数据(图像、音视频等)的问题。性价比:分层可能存在冗余。原创 2023-05-24 11:05:10 · 306 阅读 · 0 评论 -
Hudi学习1:概述
Apache Hudi 是一个支持插入、更新、删除的增量处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie。Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、数据集群/压缩和并发性,同时将数据保持为开源文件格式。支持流批一体支持多种查询引擎(包括Apache Spark、Flink、Presto、Trino、Hive)具体的概念可以查看官网。原创 2023-05-09 10:35:49 · 632 阅读 · 0 评论 -
基于Apache Hudi + MinIO 构建流式数据湖
Hudi 包含许多非常强大的增量查询功能,元数据是其中的核心,允许将大型提交作为较小的块使用,并完全解耦数据的写入和增量查询。文件夹中,在我们的例子中是存储桶。为了展示 Hudi 更新数据的能力,我们将对现有行程记录生成更新,将它们加载到 DataFrame 中,然后将 DataFrame 写入已经保存在 MinIO 中的 Hudi 表中。表格式由表的文件布局、表的模式(Schema)和跟踪表更改的元数据组成。Hudi 的设计预计基于键的快速更新插入和删除,因为它使用文件组的增量日志,而不是整个数据集。转载 2022-12-11 18:49:43 · 683 阅读 · 0 评论 -
数据湖的简介
从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事:后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被转载 2022-02-24 16:56:51 · 314 阅读 · 0 评论 -
数据湖和数据仓库区别介绍
数据湖是用来存储什么样的数据呢?数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗?数据湖与Delta Lake的关系是?数据湖可以替代数据仓库吗?简单对比下数据湖与数据仓库。数据湖存储起来非常方便,为了保证敏捷开发,是无需管理的,对吗?Apache Hudi是干什么的?仅仅实现增删改查吗?基于Hudi的数据湖数据是以什么方式存储的?Hudi有元数据吗?元数据存储在哪儿?Hudi是以什么方式与Spark进行整合的?1从数据仓库到数据湖1仓库.转载 2020-12-30 16:26:30 · 8946 阅读 · 0 评论