Amoro Mixed Format 适用场景及原理解析

最新推荐文章于 2025-11-25 19:39:25 发布

原创

最新推荐文章于 2025-11-25 19:39:25 发布 · 462 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #开源

01 背景

大家好，我是 Amoro 社区的竹堂。我们团队从2019年开始调研包括 Apache Iceberg、Apache Hudi 等一类数据湖新型表格式。当时的初衷是为实时计算寻找一种新型的存储方案，基于它为业务打造一套具有流批一体和湖仓一体特性的大数据存储方案。

团队最终选择了 Apache Iceberg，并且基于它在内部进行了大量的实践。在实践过程中，我们逐渐发现有一些场景直接使用 Apache Iceberg 将较难满足用户的需求，所以我们在 Apache Iceberg 的基础上设计并实现了 Mixed-Iceberg 和 Mixed-Hive 两种新的表格式，它们继承了 Apache Iceberg 的所有功能特性，并在实时场景下进行了一些优化和功能补充，使得能够更好地满足部分场景的需求。设计实现过程中我们坚持不修改 Apache Iceberg 表格式的结构，只在上层进行封装扩展，以使得 Mixed Format 具备较好的兼容性。

为了更加方便地使用 Apache Iceberg 与 Mixed Format 格式的表，团队研发了湖仓管理平台 Amoro，并在2022年将它开源。作为湖仓管理平台，Amoro 汇总了数据湖中所有表的元信息，基于此再以插件的方式扩展各种管理功能，包括自动的文件合并、数据清理等。管理功能方面 Amoro 对 Apache Iceberg 和 Mixed Format 做了同样的支持，而 Mixed Format 作为 Apache Iceberg 在一些功能上的补充满足更多实时场景的需求。