Grafana OnCall 监控指标与日志分析实战指南-优快云博客

Grafana OnCall 监控指标与日志分析实战指南

oncall grafana/oncall: Grafana OnCall 是 Grafana Labs 推出的一款开源事件响应与排班调度工具，可以帮助团队管理和跟踪故障处理情况，提高 SRE 团队的工作效率。项目地址: https://gitcode.com/gh_mirrors/onc/oncall

前言

在现代IT运维体系中，监控告警系统是保障业务稳定性的重要基石。Grafana OnCall作为一款专业的告警值班管理工具，不仅提供了强大的告警通知和值班管理功能，还内置了丰富的监控指标和日志分析能力。本文将深入解析Grafana OnCall的指标监控和日志分析功能，帮助运维团队全面掌握系统运行状态。

一、Grafana OnCall监控指标详解

1.1 指标类型概述

Grafana OnCall提供了三类核心监控指标：

告警组状态指标：记录每个集成中告警组在不同状态下的数量
响应时间指标：统计告警组的平均响应时间
用户通知指标：追踪用户接收到的告警通知数量

这些指标以Prometheus格式暴露，可通过PromQL进行查询分析。

1.2 指标采集方式

1.2.1 Grafana Cloud用户

对于Grafana Cloud用户，指标已自动收集在预装的grafanacloud_usage数据源中，指标前缀为grafanacloud_oncall_instance_。

1.2.2 开源版本用户

开源版本用户需要自行配置Prometheus并添加到Grafana实例中，指标前缀为oncall_。

1.3 核心指标解析

1.3.1 告警组总数指标

指标名称：*_alert_groups_total

关键标签说明：

integration：集成名称
state：告警状态（firing/acknowledged/resolved/silenced）
service_name：告警组服务名称标签

典型查询示例：

grafanacloud_oncall_instance_alert_groups_total{
  slug="prod_stack", 
  integration="Kubernetes", 
  state="firing"
}

1.3.2 告警组响应时间指标

指标名称：*_alert_groups_response_time_seconds_bucket

关键特性：

采用直方图类型记录响应时间分布
le标签表示时间分桶（60s/300s/600s/3600s/+Inf）

典型查询示例：

grafanacloud_oncall_instance_alert_groups_response_time_seconds_bucket{
  slug="prod_stack",
  integration="Grafana Alerting",
  le="600"
}

1.3.3 用户通知指标

指标名称：*_user_was_notified_of_alert_groups_total

关键用途：

统计每个用户接收到的告警通知数量
可用于评估值班人员工作负载

典型查询示例：

grafanacloud_oncall_instance_user_was_notified_of_alert_groups_total{
  slug="prod_stack",
  username="ops_team_lead"
}

1.4 预置仪表板使用

Grafana OnCall提供了开箱即用的"OnCall Insights"仪表板：

位置：仪表板列表中的General文件夹
标签：带有oncall标签
数据源选择：
- Cloud用户：grafanacloud_usage
- 开源用户：自建Prometheus数据源

仪表板支持按Grafana实例、团队和集成进行筛选，提供直观的指标可视化。

二、Grafana OnCall日志分析实战

2.1 日志类型概览

Grafana OnCall提供三类关键日志：

资源操作日志：记录资源的创建、更新和删除操作
维护模式日志：跟踪集成维护模式的启停
即时通讯日志：记录即时通讯集成的配置变更

2.2 日志查询基础

基础查询语法（使用LogQL）：

{instance_type="oncall"} | logfmt | __error__=``

2.3 各类日志详细解析

2.3.1 资源操作日志

特征字段：

action_type="resource"
action_name：操作类型（created/updated/deleted）
resource_type：资源类型（共18种，如integration/escalation_chain等）

典型查询示例：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `resource` 
| resource_type=`escalation_policy`

2.3.2 维护模式日志

关键字段：

action_type="maintenance"
maintenance_mode：维护类型（maintenance/debug）
resource_name：集成名称

典型查询示例：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `maintenance` 
| resource_id=`CSA67IQW2NMVL`

2.3.3 即时通讯日志

特征字段：

action_type="chat_ops"
chat_ops_type：集成类型（slack/其他通讯工具等）
channel_name：关联的频道名称

典型查询示例：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `chat_ops` 
| chat_ops_type=`slack`

2.4 实用查询案例

追踪特定用户操作：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `resource` 
| author="admin_user"

值班表变更审计：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `resource` 
| (resource_type=`web_schedule` or resource_type=`calendar_schedule`)

升级策略变更追踪：

{instance_type="oncall"} | logfmt | __error__=`` 
| action_type = `resource` 
| resource_type=`escalation_policy` 
| escalation_chain_id=`ESCALATION_CHAIN_ID`