StarRocks排序聚合(Sorted Streaming Aggregate)原理与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00609/article/details/148416785

StarRocks排序聚合(Sorted Streaming Aggregate)原理与实践

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在数据库系统中，聚合操作是数据分析的核心功能之一。StarRocks作为一款高性能的分析型数据库，提供了多种聚合计算方式以满足不同场景的需求。本文将深入解析StarRocks中的排序聚合(Sorted Streaming Aggregate)技术，包括其工作原理、适用场景、使用限制以及实践方法。

聚合计算方式对比

在数据库系统中，常见的聚合计算方式主要有两种：

Hash聚合：通过构建哈希表来分组和计算聚合函数，适合大多数场景
排序聚合：利用数据已排序的特性直接进行分组计算，内存消耗更低

StarRocks从2.5版本开始支持排序聚合，为特定场景提供了更高效的聚合计算方案。

排序聚合工作原理

排序聚合的核心思想是利用输入数据的有序性来优化聚合计算过程：

有序性利用：当GROUP BY的列与数据排序顺序一致时，可以直接比较相邻行的键值进行分组，无需构建哈希表
内存优化：由于不需要维护哈希表，显著减少了内存使用量
性能提升：在高基数(大量不同分组)场景下，排序聚合通常比哈希聚合性能更好

启用排序聚合

要启用排序聚合功能，只需设置以下会话变量：

SET enable_sort_aggregate = true;

使用限制与最佳实践

关键限制条件

数据分布要求：
- 查询必须只涉及单个分区
- GROUP BY列必须与表的分桶键顺序一致
- 数据必须按照GROUP BY列排序
查询模式限制：
- 必须是一阶段聚合(AGG节点下直接连接Scan节点)
- 不支持存算分离集群

排序一致性示例

假设表按k1,k2,k3排序：

有效查询：GROUP BY k1、GROUP BY k1,k2
无效查询：GROUP BY k1,k3(破坏了k2的排序)

分桶键匹配示例

假设表按k1分桶：

有效查询：GROUP BY k1、GROUP BY k1,k2、GROUP BY k1,k2,k3
无效查询：GROUP BY k2、GROUP BY k2,k1

实践案例

1. 准备测试环境

CREATE TABLE `test_sorted_streaming_agg_basic` (
    `id_int` int(11) NOT NULL COMMENT "",
    `id_string` varchar(100) NOT NULL COMMENT ""
)
ENGINE=OLAP 
DUPLICATE KEY(`id_int`)
DISTRIBUTED BY HASH(`id_int`)
PROPERTIES (
    "replication_num" = "3"
);

INSERT INTO test_sorted_streaming_agg_basic VALUES
(1, 'v1'),
(2, 'v2'),
(3, 'v3'),
(1, 'v4');

2. 执行排序聚合查询

SET enable_sort_aggregate = true;

EXPLAIN COSTS 
SELECT id_int, max(id_string)
FROM test_sorted_streaming_agg_basic
GROUP BY id_int;

3. 验证排序聚合生效

在EXPLAIN输出中，如果AGG节点包含sorted streaming: true标记，则表示排序聚合已成功启用：

|   1:AGGREGATE (update finalize)                                                                                                    |
|   |  aggregate: max[([2: id_string, VARCHAR, false]); args: VARCHAR; result: VARCHAR; args nullable: false; result nullable: true] |
|   |  group by: [1: id_int, INT, false]                                                                                             |
|   |  sorted streaming: true                                                                                                        |