StarRocks排序流式聚合技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00187/article/details/148416427

StarRocks排序流式聚合技术解析

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在数据库系统中，聚合操作是数据分析的核心功能之一。StarRocks作为一款高性能的分析型数据库，从2.5版本开始引入了**排序流式聚合(Sorted streaming aggregate)**技术，为高基数聚合查询提供了更优的性能和更低的内存消耗方案。

聚合技术对比

传统数据库系统主要采用两种聚合方式：

哈希聚合(Hash Aggregate)：通过构建哈希表实现分组聚合，适用于大多数场景，但高基数情况下内存消耗较大。
排序聚合(Sort Aggregate)：先对数据进行排序，然后按顺序处理分组，内存消耗较低但需要排序开销。

StarRocks的排序流式聚合结合了二者的优势，在特定场景下能显著提升性能。

排序流式聚合原理

排序流式聚合的核心思想是利用数据已有的有序性，避免构建哈希表带来的内存开销：

当GROUP BY的键与表的分区/分桶键顺序一致时，数据已经按这些键有序排列
聚合节点只需顺序扫描数据，比较相邻行的键值即可确定分组边界
无需构建哈希表，显著减少内存使用
特别适合高基数(分组数多)的聚合场景

启用方式

通过设置会话变量即可启用排序流式聚合：

SET enable_sort_aggregate = true;

适用条件与限制

排序流式聚合并非适用于所有场景，使用时需满足以下条件：

数据分布要求：
- 查询必须只涉及单个分区
- GROUP BY键必须与分桶键分布一致
键顺序要求：
- GROUP BY键必须是表排序键的前缀
- 例如排序键为k1,k2,k3时：
  - GROUP BY k1或GROUP BY k1,k2有效
  - GROUP BY k1,k3无效（不连续）
查询计划限制：
- 仅适用于第一阶段聚合
- AGG节点下只能有一个Scan节点
集群限制：
- 共享数据模式集群不支持此特性

实践示例

1. 创建测试表

CREATE TABLE test_sorted_streaming_agg_basic (
    id_int INT NOT NULL COMMENT "整型ID",
    id_string VARCHAR(100) NOT NULL COMMENT "字符串ID"
) 
ENGINE=OLAP 
DUPLICATE KEY(id_int)
DISTRIBUTED BY HASH(id_int)
PROPERTIES ("replication_num" = "3");

-- 插入测试数据
INSERT INTO test_sorted_streaming_agg_basic VALUES
(1, 'v1'),
(2, 'v2'),
(3, 'v3'),
(1, 'v4');

2. 执行聚合查询

-- 启用排序流式聚合
SET enable_sort_aggregate = true;

-- 执行聚合查询
EXPLAIN COSTS 
SELECT id_int, MAX(id_string)
FROM test_sorted_streaming_agg_basic
GROUP BY id_int;

3. 验证是否生效

在EXPLAIN的输出结果中，检查AGG节点是否包含sorted streaming: true：

|   1:AGGREGATE (update finalize)                                                                                                    |
|   |  aggregate: max[([2: id_string, VARCHAR, false]); args: VARCHAR; result: VARCHAR; args nullable: false; result nullable: true] |
|   |  group by: [1: id_int, INT, false]                                                                                             |
|   |  sorted streaming: true                                                                                                        |