
数据湖技术
文章平均质量分 97
本专栏聚焦数据湖技术体系,涵盖Iceberg、Hudi、Delta Lake等核心组件,深入解析其架构原理、读写机制、事务一致性、与Spark/Flink等计算引擎的集成方式,助力构建高性能、可扩展的数据湖平台。
讲文明的喜羊羊拒绝pua
拥有8年Java后端与大数据平台开发经验,曾在大疆等知名公司主导核心平台建设,具备丰富的架构设计与落地能力。擅长调度系统、存算分离湖仓架构与组件容器化,推动多个系统实现高可用、易扩展。在技术上,深入掌握Java并发编程与JVM调优,熟悉Spark、Flink、Kafka等大数据组件,具备DS、Amoro、Celeborn等开源项目贡献经验,具备强实战力与技术深度。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据湖技术之Iceberg-03 Iceberg整合Flink 实时写入与增量读取
本文介绍了Flink与Iceberg数据湖技术的整合方案。使用Flink 1.14.4和Iceberg 0.13.2版本,通过Maven配置相关依赖包。重点展示了如何通过DataStream API将Kafka数据实时写入Iceberg表:包括创建Kafka topic、设置checkpoint、读取Kafka数据、转换为RowData对象,以及配置Hadoop Catalog和Iceberg表Schema。文中提供了完整的代码示例,展示了从Kafka消费数据并写入Iceberg表的完整流程。该方案适用于需原创 2025-07-08 23:51:02 · 1002 阅读 · 0 评论 -
数据湖技术之Hudi:核心原理、Spark & Hive 集成、COW 与 MOR 模式详解
摘要 Hudi是Apache开源的数据湖解决方案,支持HDFS上大规模分析数据集的更新、增量消费等操作,旨在降低数据延迟。相比传统数据仓库,数据湖能存储多源异构数据,采用"读时模式"提供更高灵活性。Hudi通过批流一体存储解决了Kappa架构的痛点(如Kafka存储限制),实现高效OLAP查询。其核心特性包括:基于时间线的数据版本管理(支持6种操作类型)、MVCC设计、文件分组优化、布隆过滤器索引等,提供upsert、原子提交、快照隔离等能力,适用于实时数仓场景。Hudi轻量级集成Spa原创 2025-07-07 11:49:42 · 804 阅读 · 0 评论 -
数据湖技术之Iceberg-02 与Spark整合 DDL/DML 操作、快照查询与 Catalog 管理全解析
本文介绍了Spark3.2.1与Iceberg0.13.2的整合方法。首先通过pom.xml添加Iceberg相关依赖,包括spark3和runtime组件。文章详细说明了两种Catalog配置方式:Hive Catalog将数据存储在Hive默认路径,需设置iceberg.engine.hive.enabled=true;Hadoop Catalog则需指定warehouse路径。代码示例展示了两种Catalog下的表操作(创建、插入、查询、删除),并验证了Hive中可查询Iceberg表数据。最后指出H原创 2022-08-05 23:21:29 · 1188 阅读 · 0 评论 -
数据湖技术之Iceberg-01 原理解析、特性演进与Hive集成指南
数据湖技术是集中存储多源异构数据的解决方案,支持批流一体处理。传统数据仓库难以满足实时分析需求,而Kappa架构存在存储和查询限制。Apache Iceberg作为开放表格式,支持ACID事务、分区演化、模式变更等特性,实现存储层统一。其分层元数据设计(Snapshot、Manifest等)与轻量级集成能力,解决了实时数仓的痛点,成为大数据领域的重要技术。原创 2022-07-07 09:32:13 · 6222 阅读 · 1 评论