湖仓一体
文章平均质量分 92
shengjk1
零基础转码,头部大厂程序员,努力构建 通俗易懂的、好玩的编程语言教程。关注我,习得转码经验!翱翔在编程的海洋里!只学习最值得学的内容!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
当10万天分区来袭:一个让StarRocks崩溃、Kudu拒绝、HDFS微笑的架构故事
摘要 本文对比了HDFS、Kudu和StarRocks三大系统在处理10万级分区时的性能差异。HDFS采用扁平化元数据设计,仅维护目录结构和块映射,10万分区内存消耗不足1GB,且支持联邦扩展。Kudu为OLAP优化,每个tablet需存储1.5KB元数据,10万tablet需150GB内存,且Master单点受限。StarRocks因维护详细统计信息,10万分区内存消耗达950GB+,查询时需遍历所有分区元数据,导致显著延迟。核心差异在于元数据架构:HDFS保持极简无业务语义,而Kudu和StarRock原创 2025-12-03 15:47:13 · 732 阅读 · 0 评论 -
掌握 Apache Iceberg 的关键:Equality Delete 和 Position Delete 的原理与应用
Equality Delete 是一种基于字段值的删除方式。它通过指定某些字段的值来标记需要删除的行。简单来说,就是告诉系统:“所有满足这个条件的记录都要被删除。” 例如,如果你想删除所有id=3的数据,Equality Delete 就会在删除文件中记录id=3这个条件。Position Delete 是一种基于数据文件位置的删除方式。它通过指定数据文件的路径和行号来标记需要删除的行。简单来说,就是告诉系统:“在某个文件的第几行,这个记录要被删除。原创 2025-03-24 19:18:43 · 1243 阅读 · 0 评论 -
数据湖出现的背景、现状与未来
本文介绍了数据湖(Data Lake)的概念、功能、架构、优势、挑战以及与数据湖仓(Data Lakehouse)的融合。数据湖是一种用于存储海量原始数据的架构,支持结构化、半结构化和非结构化数据的直接存储和访问,具有可扩展性强、灵活性高、成本效益好以及促进数据民主化的特点。其架构包括数据摄取层、存储层、处理层和访问层,能够支持大数据分析、机器学习等多种应用场景。然而,数据湖也面临数据治理、技能缺口和数据沼泽等挑战。文章还探讨了数据湖与数据湖仓的结合,指出数据湖仓融合了数据湖和数据仓库的优势,能够提供更好的原创 2025-03-12 11:19:04 · 895 阅读 · 0 评论 -
一文搞懂 Iceberg 的 branch 和 tags
本文介绍了 Apache Iceberg 的分支(Branch)和标签(Tag)功能,通过类 Git 的机制解决大数据场景下的数据版本管理和数据隔离问题,实现 ACID 事务、隔离实验和精准回溯。同时提到 Nessie 作为多表事务管理的解决方案。原创 2025-04-10 14:53:55 · 1220 阅读 · 0 评论 -
快速搞懂湖仓一体的发展历程:错过它,你将失去下一个大数据风口!
本文介绍了数据湖仓一体架构的发展历程和优势。从OLAP数据库及其限制出发,阐述了第一代数据仓库、基于Hive的数据仓库、MPP架构和其他计算引擎、数据湖、数据湖表格式以及数据湖仓的出现和发展。最后总结了数据湖仓在云环境中的优势,如存储和计算资源的解耦,提高了灵活性和成本效益。原创 2025-04-08 18:40:47 · 1115 阅读 · 0 评论
分享