Cloudberry（二）演化路线图

原创

已于 2025-08-25 15:45:45 修改 · 941 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据库 #分布式 #开源软件

于 2024-12-14 20:36:27 首次发布

CloudberryDB 制定了演化路线图（https://github.com/orgs/cloudberrydb/discussions/369）并在逐步改进，这是 Cloudberry Database 发挥独特价值之处。

计划、正在进行或已完成的一些工作。

支持轻松升级 PostgreSQL 内核版本。

原有 Greenplum Database 功能实现对 PostgreSQL 内核具有很强的侵入性，导致升级 PostgreSQL 版本非常困难。我们采取当前 PostgreSQL 生态流行的方式，以“扩展插件/Library”模式重构部分功能实现，降低与 PostgreSQL 内核的强耦合度，可以轻松实现 PostgreSQL 内核版本升级。如果你想在 Cloudberry Database 中增加什么功能，都可以像拼积木一样灵活扩展，这一策略贯穿到整个 Cloudberry Database 设计与开发之中。（已开源）

支持统一管理非结构化数据。

面对 AI 应用带来的非结构化数据管理挑战，我们在 Cloudberry Database 中引入了“Directory Table”概念特性，用于存储、管理和分析非结构化数据对象，实现集中管理和统一处理文档、音视频等非结构化数据。在此基础上，用户只需要使用简单的 SQL 语句就可以调用各种计算引擎，实现高效的数据加工和应用开发，降低非结构化语料数据的处理成本。（已开源）

多场景综合优化性能。

性能优化是个系统工程，涉及到多个方面，不同场景处理方式也不一样。我们重点推动了，如：

• 实现向量化，提升查询性能。当需要处理大规模数据集时，向量化执行引擎可以显著提高计算效率。通过将数据向量化，可以同时处理多个数据元素，利用并行计算和 SIMD 指令集加速计算过程。我们内部已经实现基于 Cloudberry Database 内核的向量化插件，会明显提升优化查询语句的性能。（准备开源）
• 下推聚集运算。聚集下推是使聚集操作的运算更接近数据源的一种优化技术。目前 Cloudberry Database 已支持将聚集运算下推，即将聚集算子提前到连接算子之前进行计算。在合适的场景下，聚集下推能够明显地减少连接算子或者聚集算子的输入集大小，进而提升算子的执行性能。（已开源）
• 实现增量物化视图、自动物化视图支持查询优化。（已开源）
- • 增量物化视图是物化视图的一种特殊形式，当数据在基础表中发生变化时（例如插入、更新、删除操作），增量物化视图不需要重新计算整个视图中的所有数据。相反，它只更新那些自上次刷新以来发生变化的部分，这样可以节省大量的计算资源和时间，显著提高性能，尤其是在处理大型数据集时。
- • 支持在查询规划阶段自动使用物化视图来计算部分或全部查询（即 AQUMV），这一功能特别适用

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。