starrocks基于prometheus实现监控告警

最新推荐文章于 2025-08-28 14:56:06 发布

原创

最新推荐文章于 2025-08-28 14:56:06 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#prometheus #java #大数据

本文介绍了如何为StarRocks设置监控报警，包括使用StarRocksManager的企业版方案和Prometheus+Grafana的开源方案。详细阐述了Prometheus的监控数据模型，Grafana的可视化功能以及Alertmanager的报警配置。还提供了监控架构的概述，以及如何部署和配置这三个组件来监控和报警StarRocks集群的状态。

监控报警

本文介绍如何为 StarRocks 设置监控报警。

StarRocks 提供两种监控报警的方案。企业版用户可以使用内置的 StarRocksManager，其自带的 Agent 从各个 Host 采集监控信息，上报至 Center Service，然后做可视化展示。StarRocksManager 提供邮件和 Webhook 的方式发送报警通知。你也可以使用开源 Prometheus+Grafana 方案，StarRocks 提供了兼容 Prometheus 的信息采集接口，可以通过直接连接 BE 或 FE 的 HTTP 端口来获取集群的监控信息。

Prometheus 是一个拥有多维度数据模型的、灵活的查询语句的时序数据库。它可以通过 Pull 或 Push 采集被监控系统的监控项，存入自身的时序数据库中。并且通过丰富的多维数据查询语言，满足用户的不同需求。

Grafana 是一个开源的 Metric 分析及可视化系统。支持多种数据源，详情可参考官网文档。通过对应的查询语句，从数据源中获取展现数据。通过灵活可配置的 Dashboard，快速的将这些数据以图表的形式展示给用户。

监控架构

Prometheus 通过 Pull 方式访问 FE 或 BE 的 Metric 接口，然后将监控数据存入时序数据库。用户可以通过 Grafana 配置 Prometheus 为数据源，自定义绘制 Dashboard。Alertmanage 匹配采集到的数据对比starrocks_rules阈值触发告警推送。

部署 Prometheus + Grafana + Alertmanage

从 Prometheus 官网下载最新版本的 Prometheus。（安装部署略）

从 Grafana 官网下载最新版本的 Grafana（安装部署略）

从下载最新版本的 alertmanager（安装部署略）

配置 Prometheus

在 prometheus.yml 中添加 StarRocks 监控相关的配置

global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets: ['localhost:9093']
      # - alertmanager:9093
rule_files:
  - "./rules/starrocks_rules.yml"      
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'StarRocks_Cluster01' # 每一个集群称之为一个job，可以自定义名字作为StarRocks集群名
    metrics_path: '/metrics'    # 指定获取监控项目的Restful Api
    static_configs:
  &nb

最低0.47元/天解锁文章