StarRocks查询监控与管理实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00746/article/details/148416422

StarRocks查询监控与管理实战指南

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在数据库运维和性能优化过程中，实时监控正在执行的查询是至关重要的。本文将深入讲解如何在StarRocks分布式分析型数据库中查看和分析运行中的查询，帮助数据库管理员和开发人员更好地理解查询执行情况，及时发现潜在的性能问题。

查询监控的重要性

在OLAP系统中，查询通常涉及大量数据的扫描和处理，不当的查询可能会占用过多系统资源，影响其他查询的性能。通过监控运行中的查询，我们可以：

识别资源消耗大的查询
发现长时间运行的查询
监控系统整体负载情况
进行资源隔离和优先级管理

查询监控方法详解

1. 查看当前FE节点运行查询

使用show proc '/current_queries'命令可以查看当前前端节点(FE)上正在执行的所有查询。这个命令返回的信息非常丰富，包括：

基础信息：查询ID、连接ID、数据库、用户等
资源消耗：扫描数据量、内存使用、CPU时间等
执行状态：执行时间、是否发生磁盘溢出等
资源管理：使用的资源组和计算仓库

-- 示例查询结果
***************************[ 1. row ]***************************
StartTime     | 2023-03-07 02:16:04
feIp          | 172.26.92.227
QueryId       | 10db481c-fab7-11ef-8063-461f20abc3f0
ConnectionId  | 13
Database      | tpcds_2
User          | root
ScanBytes     | 120.573 MB
ScanRows      | 5859503 rows
MemoryUsage   | 225.893 MB
DiskSpillSize | 0.000 B
CPUTime       | 47.878 s
ExecTime      | 4.077 s
Warehouse     | default_warehouse
CustomQueryId |
ResourceGroup | rg1

关键指标解读：

ScanBytes和ScanRows：反映查询的数据扫描量，数值过大可能意味着需要优化查询或添加索引
MemoryUsage：查询占用的内存，过高可能导致OOM
DiskSpillSize：当内存不足时，数据会溢出到磁盘，这个值大于0说明查询可能需要更多内存资源
CPUTime和ExecTime：CPU时间与执行时间的比值可以反映查询的并行度和资源利用率

2. 查看全局运行查询（3.4版本及以上）

在多FE节点的StarRocks集群中，show proc '/global_current_queries'命令可以查看所有FE节点上的运行查询，这对于集中监控非常有用。

-- 全局查询示例
***************************[ 1. row ]***************************
StartTime     | 2023-03-07 02:21:48
feIp          | 172.26.92.227
QueryId       | de516505-fab7-11ef-8063-461f20abc3f0
ConnectionId  | 14
Database      | tpcds_2
User          | root
ScanBytes     | 120.573 MB
ScanRows      | 5859503 rows
MemoryUsage   | 346.915 MB
DiskSpillSize | 0.000 B
CPUTime       | 33.265 s
ExecTime      | 3.032 s
Warehouse     | default_warehouse
CustomQueryId |
ResourceGroup | rg1

3. 查询队列状态监控

SHOW RUNNING QUERIES命令专门用于监控查询队列状态，特别适合启用了查询队列功能的场景。该命令可以显示查询是否处于等待(PENDING)或运行(RUNNING)状态。

-- 查询队列状态示例
***************************[ 1. row ]***************************
QueryId         | 50029ec1-fab8-11ef-8063-461f20abc3f0
ResourceGroupId | 562275
StartTime       | 2023-03-07 02:24:59
PendingTimeout  | 2023-03-07 02:27:29
QueryTimeout    | 2023-03-07 02:27:29
State           | RUNNING
Slots           | 1
Fragments       | 11
DOP             | 0
Frontend        | 172.26.92.227_8034_1709578860161
FeStartTime     | 2023-03-06 23:39:00

关键字段说明：