prometheus-example-queries：助力Prometheus高效监控-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01179/article/details/147463364

prometheus-example-queries：助力Prometheus高效监控

prometheus-example-queries Simple place for people to provide examples of queries they've found useful. 项目地址: https://gitcode.com/gh_mirrors/pr/prometheus-example-queries

在现代运维和监控领域，Prometheus已成为一款不可或缺的工具。然而，PromQL（Prometheus查询语言）的学习曲线可能会让一些用户感到困惑。为此，开源项目prometheus-example-queries应运而生，旨在为用户提供一系列实用的PromQL查询示例，帮助用户更高效地利用Prometheus进行监控。

项目介绍

prometheus-example-queries项目是一个开源仓库，目的是收集和分享实用的PromQL查询示例。这些示例涵盖了从基本的CPU使用率监控到复杂的HTTP错误率追踪等不同场景。项目鼓励社区成员贡献自己的查询示例，以丰富这个资源库，使其成为社区的宝贵财富。

项目技术分析

Prometheus的强大之处在于其灵活的查询语言PromQL，但PromQL的学习和使用并不总是直观。prometheus-example-queries通过提供一系列经过实践验证的查询示例，降低了用户使用Prometheus的门槛。以下是项目的一些关键特性：

易于理解的查询示例：项目中的查询示例均采用统一的格式，方便用户阅读和维护。
覆盖多种监控场景：从基础的系统资源监控到高级的网络请求分析，项目几乎涵盖了所有常见的监控场景。
社区驱动的持续更新：项目的持续更新依赖于社区成员的贡献，保证了查询示例的时效性和多样性。

项目技术应用场景

prometheus-example-queries的应用场景广泛，以下是一些典型的使用案例：

1. 系统资源监控

CPU使用率

通过以下查询，用户可以获取服务器的总体CPU使用率：

- record: instance:node_cpu_utilization_percent:rate5m
  expr: 100 * (1 - avg by(instance)(irate(node_cpu{mode='idle'}[5m])))

这个查询对于新接触Prometheus的用户来说非常有用，因为它可以复现常见的CPU检查。

2. 网络请求监控

HTTP错误率

以下查询可以帮助用户追踪HTTP错误率，相对于总流量：

- record: job_instance_method_path:demo_api_request_errors_50x_requests:rate5m
  expr: >
    rate(demo_api_request_duration_seconds_count{status="500",job="demo"}[5m]) * 50
      > on(job, instance, method, path)
    rate(demo_api_request_duration_seconds_count{status="200",job="demo"}[5m])

这个查询对于监控服务质量的稳定性至关重要。

3. 响应时间分析

90分位数延迟

以下查询可以帮助用户分析HTTP端点的90分位数延迟：

- record: instance:demo_api_90th_over_50ms_and_requests_over_1:rate5m
  expr: >
    histogram_quantile(0.9, rate(demo_api_request_duration_seconds_bucket{job="demo"}[5m])) > 0.05
      and
    rate(demo_api_request_duration_seconds_count{job="demo"}[5m]) > 1

这个查询对于确保服务响应时间的稳定性非常有用。