
数据湖
文章平均质量分 89
james二次元
分享大数据及AI相关技术,每天进步一点点,和大家一起学习、一起进步!
展开
-
数据湖之Amoro
Amoro 是一个开源的数据湖存储引擎,旨在为现代数据处理场景提供高性能、可扩展的存储解决方案。它通过支持多种数据源和存储格式,为企业级数据处理和分析提供了强大的能力。Amoro 专注于数据湖的管理和查询优化,能够无缝集成到现有的大数据生态系统中。原创 2024-09-06 05:00:00 · 2243 阅读 · 0 评论 -
数据湖之Delta Lake
Delta Lake 是一种开源的存储层技术,构建在 Apache Spark 的基础之上,旨在解决传统数据湖的可靠性、性能和数据一致性问题。它通过引入 ACID 事务、数据版本控制、时间旅行和统一的批处理与流处理等特性,显著提升了数据湖的可用性和数据管理能力。Delta Lake 由 Databricks 推出,现已成为现代数据湖架构的核心组件。原创 2024-08-21 05:00:00 · 2240 阅读 · 0 评论 -
大数据之数据湖
数据湖(Data Lake)是一个集中式存储库,用于存储大量的原始数据,包括结构化、半结构化和非结构化数据。这些数据可以以其原始格式存储,而不需要事先定义结构(即模式),这与传统的数据仓库(Data Warehouse)有所不同。原创 2024-07-29 07:00:00 · 1152 阅读 · 0 评论 -
数据湖之Iceberg
Apache Iceberg 是一个用于大规模数据集的开源表格式库,旨在解决传统数据湖在管理大型数据集时遇到的挑战。它由Netflix创建,并捐赠给了Apache软件基金会。Iceberg旨在提供一种高效、灵活且可扩展的方式来处理海量数据,同时保持强大的事务性保证。原创 2024-08-15 05:00:00 · 1332 阅读 · 0 评论 -
数据湖之Paimon
Paimon 是一个针对流式数据湖的创新系统,它集成了流处理和数据湖存储的能力,旨在为大规模数据处理提供灵活、高效的解决方案。以下是对 Paimon 的详细介绍,涵盖从基本概念到实际应用的各个方面。原创 2024-08-12 06:30:00 · 2023 阅读 · 0 评论 -
数据湖之Hudi
Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个用于管理大规模数据湖的开源框架,旨在高效地进行数据的插入、更新和删除操作,并支持流式数据的处理。Hudi 的设计目标是解决传统数据湖在数据管理和查询性能上的不足,使得数据湖能够像数据库一样灵活、快速地进行数据操作和查询。原创 2024-08-05 05:30:00 · 667 阅读 · 0 评论