
数据湖
文章平均质量分 88
数据湖前沿技术探索
数据与算法架构提升之路
我是一名专注于AI和数据架构的技术专家,拥有扎实的编程与数学基础。在大数据框架重构和底层源码开发方面积累了丰富经验,擅长自动驾驶、数据架构和深度学习等领域的研究与实践。目前,我主要从事数据AI架构相关工作,并曾在新能源汽车行业积累了深厚的技术背景。对技术创新和持续学习充满热情,致力于推动前沿技术的应用与发展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据湖新突破:Hudi让实时数据分析更高效!
Apache Hudi 优化数据湖存储,支持高效数据摄入、异步合并、快照读取和变更流,适用于实时分析。原创 2024-10-14 17:57:53 · 692 阅读 · 0 评论 -
揭秘Iceberg:数据湖新版本的高级特性全面解析
Iceberg是一个高性能的分布式数据存储格式,支持分支、标签、Puffin格式和统计信息等特性,以优化数据管理和查询性能。它通过物化视图、CDC数据入湖、多流数据拼接、异步索引和Z-order聚簇优化等功能,简化了数据集成和处理流程,同时提供了多租户访问控制以增强数据安全性。原创 2024-08-20 16:04:47 · 1278 阅读 · 0 评论 -
基于 Flink SQL 和 Paimon 构建流式湖仓新方案
Paimon 结合了湖存储和 LSM(Log Structured MergeTree)技术,提供了低延时、低成本的流式数据湖解决方案。 Paimon 与 Flink 有深度集成,支持 CDC原创 2023-12-22 21:42:26 · 2258 阅读 · 1 评论 -
Flink sql-cli 查询 Iceberg 的坑
table.exec.iceberg.infer-source-parallelism.max 默认为 100,如果按默认值true的话会根据分区个数进行推断 查了下分区是超过100的原创 2023-03-13 16:12:24 · 513 阅读 · 0 评论 -
Iceberg原理和项目使用技巧
Iceberg 是一种表格式的规范,以及实现了这种规范的代码库,通过提供了一组 API 供计算引擎或其它进程调用。Iceberg 通过元数据文件给数据文件加了一层索引。原创 2023-02-23 16:19:43 · 4345 阅读 · 0 评论 -
Iceberg实战踩坑指南
本文demo基于 0.11.1 版本较老,iceberg官网已经没有该版本样例了,同时改版本也不支持一些iceberg的新特性,比如:upsert功能,动态schema变更以及索引和小文件合并等问题。但是不影响对主要API和功能的学习和理解原创 2023-02-21 14:07:19 · 3679 阅读 · 0 评论 -
Hudi、Iceberg底层索引Z-Order
Z-Order最早是1966提出的一项将多维数据映射到一维的方法.随着数据库技术的发展,这种映射方法由于其特性,被应用到了数据库技术中,特别是在大数据时代再次被提及,在hudi、iceberg中都有应用。本文将对数据库领域使用Z-Order的情形进行介绍,分析其使用场景,最后对比多个数据库领域的相关技术,得出Z-Order的特点原创 2023-01-06 19:40:51 · 1961 阅读 · 0 评论