一招解决数据库中报表查询慢的痛点

原创

于 2025-03-12 10:14:57 发布 · 1.6k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

一招解决数据库中报表查询慢的痛点

作者：日休

一、背景

常见的 CRM， ERP 等信息管理系统都基于数据库构建。它们都是常见的 TP 系统，强调一致性、高并发的在线事务处理（OLTP）系统。这类系统里面有日常的数据增删改查的事务需求，也有周期性的报表需求。TP 数据库如 PostgreSQL 在解决事务型需求时性能卓越，但在处理复杂报表的分析型需求时则表现欠佳，难以高效支持多维度聚合、大规模表关联等操作。传统方案需通过 ETL 将数据迁移至 ClickHouse、Snowflake 等专用 OLAP 系统，导致架构割裂、运维成本陡增。

为了提升 TP 系统的分析性能，RDS PosgreSQL 引入 DuckDB，推出了 rds_duckdb 加速引擎。该引擎利用 PostgreSQL 扩展插件接口，深度集成 DuckDB，实现了一体化的实时事务处理和实时数据分析的能力，一站式满足业务的 OLTP 及 OLAP 需求。通过使用 rds_duckdb 可以获得与原生 DuckDB 几乎相同的性能，TPCH 性能有 10-100 倍的提升。我们可以将 RDS PostgreSQL 中的本地表、视图、物化视图等导出为列存表，同时支持行存到列存数据的自动同步。启用分析型查询加速功能后，查询会被在 duckdb 中执行，非常适合实时报表等复杂分析场景。

二、什么是 DuckDB？

DuckDB【1】【2】是一款面向嵌入式分析场景的高性能开源列式关系型数据库，专注于复杂 SQL 查询的加速与大规模数据分析（OLAP）。该项目由荷兰国家数学与计算机科学研究院（CWI）的 Mark Raasveldt 和 Hannes Mühleisen 主导开发，于 2019 年正式开源，凭借其卓越的 AP 性能与轻量级设计，迅速成为数据科学和边缘计算领域的热门选择，月下载量超百万次。

其核心优势在于以单机进程内（in-process）架构高效处理百列级宽表及十亿行级数据量的复杂分析，例如多表关联聚合、窗口函数计算等场景。与 SQLite 等传统嵌入式数据库的 OLTP 定位不同，DuckDB 深度优化列式存储、向量化执行引擎及并行计算，特别适配 Python/R 生态的数据分析、BI 工具嵌入式加速等场景。截至 2024 年，其 GitHub Star 数已突破 24.7k，社区贡献者超 500 人，版本迭代速度与性能优化持续领跑开源 OLAP 领域。

三、DuckDB 为什么这么快？

DuckDB 从优化器，执行器，操作符，和存储等各个环节都利用了业界最新的技术，并凭借强大的工程能力，实现了单机复杂查询的极致性能，超过了同类分析型数据库。这里仅对 DuckDB 的优化点做一个简单的概述，具体的实现细节可以参考引用文档。

3.1 优化器

在很少甚至没有统计信息的情况下，连接顺序优化器（join order optimzier）【3】通过减少连接过程中处理的中间元组数量，显著提升了多表 join 查询性能。具体优化点如下：

通过减少多表连接时的中间结果规模，提升复杂查询的执行效率；
在 Join Order 枚举过程中，采用高效的搜索策略，平衡探索空间与计算开销，避免传统动态规划方法的高复杂度问题；
轻量化统计依赖：结合轻量级信息生成优化策略，降低对传统

最低0.47元/天解锁文章