
湖仓一体
文章平均质量分 96
LakeHouse 是一种结合了数据湖和数据仓库优势的新范式。LakeHouse 使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。如果你现在需要重新设计数据仓库,鉴于现在存储(以对象存储的形式)廉价且高可靠,不妨可以使用 LakeHouse。
G皮T
计算机科学与技术本科,计算机技术硕士,现任职于某互联网公司,担任测试开发工程师。优快云云原生领域优质创作者、博客专家。书籍《大数据测试开发工程师的第一本书》正在积极撰写中,敬请期待。微信公众号:大数据与AI实验室。《Java 百“练”成钢》连载中,欢迎关注!
展开
-
【Hudi】Hudi 核心知识点详解(一)
在 Flink 实时流中,经常会通过 Flink CDC 插件读取 Mysql 数据,然后写入 Hudi 中。所以在执行上述操作时,需要了解 Hudi 的基本概念以及操作原理,这样在近实时往 Hudi 中写数据时,遇到报错问题,才能及时处理。原创 2023-12-10 12:15:29 · 4777 阅读 · 0 评论 -
【Hudi】Hudi 核心知识点详解(二)
Hudi 提供了 Hudi 表的概念,这些表支持 CRUD 操作,可以利用现有的大数据集群比如 HDFS 做数据文件存储,然后使用 SparkSQL 或 Hive 等分析引擎进行数据分析查询。原创 2023-12-10 23:46:38 · 1970 阅读 · 0 评论 -
【Hudi】Hudi HMS Catalog 完全使用指南
当 Flink 和 Spark 同时接入 Hive Metastore(HMS)时,用 Hive Metastore 对 Hudi 的元数据进行管理,无论是使用 Flink 还是 Spark 引擎建表,另外一种引擎或者 Hive 都可以直接查询。原创 2023-12-25 23:18:39 · 1840 阅读 · 0 评论 -
【Iceberg】数据湖:下一代大数据的发展趋势
可以把数据湖认为是最新一代大数据技术平台,为了更好地理解数据湖的基本架构,我们先来看看大数据平台的演进过程,从而理解为什么要学习数据湖技术。原创 2023-08-31 23:11:27 · 1893 阅读 · 1 评论 -
【Iceberg】Apache Iceberg 概述和源代码的构建
我们在使用不同的引擎进行大数据计算时,需要将数据根据计算引擎进行适配。这是一个相当棘手的问题,为此出现了一种新的解决方案:介于上层计算引擎和底层存储格式之间的一个中间层。这个中间层不是数据存储的方式,只是定义了数据的元数据组织方式,并向计算引擎提供统一的类似传统数据库中 “表” 的语义。它的底层仍然是 Parquet、ORC 等存储格式。基于此,Netflix 开发了 Iceberg,目前已经是 Apache 的顶级项目。原创 2023-09-03 12:16:19 · 3401 阅读 · 1 评论 -
【AVRO】详解 AVRO 格式
本文对 avro 的格式定义、编码方式、以及实际存储的文件格式进行了详细说明,最后也以一个实际例子进行了对照说明。另外, 在官网中还涉及 rpc 的使用、mapreduce 的使用,这里就没有展开说明,有兴趣的可移步官网进行查阅。原创 2023-12-13 23:05:08 · 4224 阅读 · 0 评论 -
【LakeHouse】LakeHouse 架构指南
那么从数据湖到 LakeHouse 有什么区别呢?LakeHouse 是数据湖和数据仓库的组合(可能还有很多其他意见)。LakeHouse 具有开放的数据管理架构,结合了数据湖的灵活性、成本效益和规模。与数据湖一样,它还具有数据湖表格式(Delta Lake、Apache Iceberg和Apache Hudi)提供的数据库功能。与数据湖相比,LakeHouse 具有额外的数据治理。它包括集群计算框架和 SQL 查询引擎。更多功能丰富的 LakeHouse 还支持数据目录和最先进的编排。原创 2024-03-08 21:54:28 · 1412 阅读 · 1 评论 -
【Amoro】Apache Iceberg + Amoro 助力网易构建云原生湖仓
湖仓一体的发展经历了从数据仓库到数据湖,最终到湖仓一体的过程。传统的数仓针对的是结构化数据,面向特定的分析或者报表场景,提供标准的 SQL 与标准的服务。随着业务规模的扩大,复杂性提升,对于半结构化、非结构化的数据存储和处理的需求涌现,催生了数据湖技术的发展。数据湖是在廉价的存储系统上,使用各种工具,满足各种数据类型的业务需求。这种非标准化的处理带来了管理成本和开发成本的上升。湖仓一体顺应而生,它是基于数据服务技术开发的廉价的系统,同时能够构建结构化数据的处理能力。原创 2024-05-19 23:10:17 · 1829 阅读 · 2 评论