Prometheus 核心特征详解

最新推荐文章于 2025-11-25 13:01:43 发布

原创最新推荐文章于 2025-11-25 13:01:43 发布 · 783 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#prometheus #核心特征 #学习

性能监控专栏收录该内容

82 篇文章

订阅专栏

Prometheus 核心特征详解

Prometheus 是由 SoundCloud 开源的云原生监控与告警系统，现为 CNCF（云原生计算基金会）毕业项目，广泛应用于 Kubernetes、微服务、分布式系统等场景。

它以强大的多维数据模型、高效的拉取模型、灵活的查询语言和完整的告警生态著称，是现代可观测性体系的核心组件之一。

本文将全面、深入地解析 Prometheus 的六大核心特征，帮助你理解其设计哲学、工作原理与最佳实践。

一、1. 多维数据模型（Multi-dimensional Data Model）

这是 Prometheus 最核心的创新之一。

特征说明

Prometheus 的指标数据由：

指标名称（Metric Name）
标签（Labels / Dimensions）

共同构成一个唯一的时间序列（Time Series）。

示例

http_requests_total{method="POST", handler="/api/users", status="200"} 1024

http_requests_total：指标名称
{method="POST", handler="/api/users", status="200"}：标签集
1024：样本值（counter 值）
隐含时间戳

核心优势

优势	说明
✅ 多维切片分析	可按任意标签组合聚合、过滤、分组
✅ 高选择性	`sum by (method) (http_requests_total)`
✅ 灵活查询	支持 PromQL 进行复杂计算

⚠️ 注意：避免高基数（High Cardinality）

标签值过多（如 user_id="123"）会导致：
- 存储爆炸
- 查询变慢
- 内存溢出
✅ 推荐：使用低基数标签（env, service, status, method）

二、2. 拉取模型（Pull-based Model）

Prometheus 主动从目标服务拉取（scrape） 指标数据。

工作机制

Prometheus Server 定期（默认 15s）向目标端点（如 /metrics）发起 HTTP GET 请求。
目标服务返回文本格式的指标（如 OpenMetrics 格式）。
Prometheus 解析并存储为时间序列。

配置示例（prometheus.yml）

scrape_configs:
  - job_name: 'spring-boot-app'
    scrape_interval: 15s
    static_configs:
      - targets: ['192.168.1.10:8080']
        labels:
          group: 'production'

优势

优势	说明
✅ 无侵入性	目标服务只需暴露 `/metrics` 端点
✅ 易于调试	可直接浏览器访问 `http://target:8080/metrics` 查看
✅ 自包含	不依赖外部推送服务
✅ 适合云环境	与 Kubernetes Service Discovery 天然集成

劣势与补充

问题	解决方案
无法监控动态短生命周期任务（如批处理）	使用 Pushgateway
网络必须可达	使用 Service Mesh 或 Exporter 中继

三、3. PromQL：强大的查询语言（Query Language）

Prometheus Query Language（PromQL）是其分析能力的核心。

核心能力

类型	示例
即时向量（Instant Vector）	`http_requests_total{job="api"}`
范围向量（Range Vector）	`http_requests_total[5m]`
聚合操作	`sum by (method) (http_requests_total)`
函数	`rate()`, `irate()`, `histogram_quantile()`
算术运算	`+`, `-`, `*`, `/`, `^`
逻辑/集合操作	`and`, `or`, `unless`

常用函数详解

`rate()` 与 `irate()`

计算每秒增长率，用于 Counter 指标：

# 过去 5 分钟平均每秒请求数
rate(http_requests_total[5m])

# 瞬时增长率（对波动敏感）
irate(http_requests_total[5m])

✅ 生产推荐：rate() 更平滑

`histogram_quantile()`

从直方图（histogram）中计算分位数：

# 计算 99 分位响应延迟
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

`increase()`

计算时间范围内 Counter 的增长量：

increase(http_requests_total[1h])  # 过去 1 小时请求数

四、4. 高效的时间序列数据库（TSDB）

Prometheus 自带一个本地、高性能的时序数据库（TSDB）。

存储机制

数据按 block（2 小时） 存储在磁盘。
使用 WAL（Write-Ahead Log） 保证写入可靠性。
支持压缩和 降采样（通过 Thanos 或 Cortex 实现长期存储）。

存储格式优化

倒排索引：快速根据标签查找时间序列
Chunked Storage：将时间序列分块存储，提升读写效率
内存映射（mmap）：减少 JVM 堆内存压力

默认保留策略

# prometheus.yml
storage:
  tsdb:
    retention.time: 15d  # 默认 15 天

✅ 生产建议：结合 Thanos 或 Cortex 实现无限存储与高可用

五、5. 服务发现与动态配置

Prometheus 支持多种服务发现机制，自动发现监控目标。

内置服务发现

类型	说明
`kubernetes_sd_configs`	Kubernetes Pod、Service、Endpoint 发现
`consul_sd_configs`	Consul 服务注册发现
`dns_sd_configs`	DNS 记录发现
`ec2_sd_configs`	AWS EC2 实例发现
`file_sd_configs`	静态文件配置（JSON/YAML）

Kubernetes 示例

- job_name: 'kubernetes-pods'
  kubernetes_sd_configs:
    - role: pod
  relabel_configs:
    - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
      action: keep
      regex: true

✅ 自动发现所有带有 prometheus.io/scrape: "true" 注解的 Pod

六、6. 告警系统（Alerting）

Prometheus 内置强大的告警规则引擎，但告警通知由 Alertmanager 负责。

1. 告警规则（Recording & Alerting Rules）

# rules.yml
groups:
  - name: example
    rules:
      - alert: HighRequestLatency
        expr: histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m])) > 1
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "High latency on {{ $labels.instance }}"
          description: "{{ $labels.instance }} has a 99th percentile latency > 1s for 10 minutes."

expr：触发条件
for：持续时间
labels：附加标签
annotations：详细信息（用于通知）

2. Alertmanager：告警通知中枢

接收 Prometheus 发送的告警
支持 去重、分组、静默、抑制
支持多种通知方式：
- Email
- Slack
- Webhook
- PagerDuty
- DingTalk / Feishu

告警流程

Prometheus Server → 触发告警 → Alertmanager → 分组/去重 → 发送到 Slack/Email

七、Prometheus 生态组件

组件	作用
Node Exporter	采集主机指标（CPU、内存、磁盘）
cAdvisor / kube-state-metrics	Kubernetes 容器与资源监控
Pushgateway	支持 Push 模型的短任务监控
Alertmanager	告警通知与管理
Thanos / Cortex / Mimir	水平扩展、长期存储、高可用
Grafana	可视化展示（官方推荐）

八、核心特征总结

特征	说明	优势	注意事项
多维数据模型	指标 + 标签	灵活查询、聚合	避免高基数标签
拉取模型	主动 scrape	简单、可靠、易调试	需网络可达
PromQL	强大查询语言	支持复杂分析	学习成本略高
本地 TSDB	高效存储	低延迟、高性能	默认不支持长期存储
服务发现	动态发现目标	适合云环境	需配置 relabel
告警系统	规则 + Alertmanager	完整告警闭环	Alertmanager 需单独部署