Prometheus学习

原创已于 2025-04-15 17:53:59 修改 · 1.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#prometheus

于 2025-04-13 02:13:03 首次发布

linux学习专栏收录该内容

7 篇文章

订阅专栏

一、普罗米修斯的双重身份：神话与技术的交融

普罗米修斯（Prometheus）这一名字源于古希腊神话，意为“先见之明”。在希腊神话中，普罗米修斯是泰坦神族的后裔，因盗火赋予人类文明而被宙斯惩罚，象征智慧、牺牲与革新。而在现代技术领域，普罗米修斯（Prometheus） 是一款开源的监控与告警系统，由 SoundCloud 于 2012 年推出，现已成为云原生生态的核心组件之一，其设计理念与神话中的“赋予人类力量”不谋而合。

二、Prometheus 的核心特性与架构设计

1. 核心特性

多维度数据模型：基于键值对标签（Label）的时间序列数据（Time Series Data），支持灵活的数据聚合与查询。
高效的时序数据库（TSDB）：针对时间序列数据优化，支持高吞吐量写入与压缩存储，每秒可处理百万级数据点。
灵活的查询语言（PromQL）：支持复杂的数据分析与聚合操作，例如统计 CPU 使用率的 95 分位数：
```
quantile(0.95, rate(node_cpu_seconds_total{mode="idle"}[5m]))
```
多种数据采集方式：支持主动拉取（Pull）和网关推送（Pushgateway），适配短生命周期任务的监控需求。

2. 架构组件详解

Prometheus Server
- 核心服务，负责数据抓取、存储与告警规则计算。
- 内置 TSDB，数据按时间窗口分块存储（默认 2 小时块），支持高效查询。
Exporters
- 数据采集代理，将第三方系统（如 MySQL、Node.js）的指标转换为 Prometheus 格式。
- 常见 Exporter：node_exporter（主机监控）、mysqld_exporter（MySQL 监控）。
Alertmanager
- 告警管理组件，支持去重、分组与多渠道通知（邮件、Slack、Webhook）。
Pushgateway
- 临时任务数据缓存网关，用于接收短生命周期作业的指标推送。
Grafana 集成
- 通过 Grafana 可视化仪表盘展示监控数据，支持自定义图表与告警面板。

三、Prometheus 的安装与配置实践

1. 环境部署

下载与解压：

wget https://github.com/prometheus/prometheus/releases/download/v2.54.0/prometheus-2.54.0.linux-amd64.tar.gz
tar -zxvf prometheus-2.54.0.linux-amd64.tar.gz -C /usr/local/
mv /usr/local/prometheus-2.54.0.linux-amd64 /usr/local/prometheus

配置文件（prometheus.yml）：

global:
  scrape_interval: 15s  # 抓取间隔
  evaluation_interval: 15s  # 告警规则评估间隔

scrape_configs:
  - job_name: 'prometheus'  # 监控自身
    static_configs:
      - targets: ['localhost:9090']
  - job_name: 'node'  # 监控主机
    static_configs:
      - targets: ['192.168.35.143:9100']  # node_exporter 端口

2. 启动服务

nohup /usr/local/prometheus/prometheus --config.file="/usr/local/prometheus/prometheus.yml" &

3. 验证与访问

通过 http://<IP>:9090 访问 Web UI，查看监控目标状态。
使用 http://<IP>:9090/graph 输入 PromQL 查询实时数据。

四、Prometheus 的数据模型与监控场景

1. 时间序列数据格式

指标格式：<metric_name>{<label1>=<value1>, <label2>=<value2>} <timestamp> <value>

示例：

node_cpu_seconds_total{cpu="0", mode="idle"} 1620000000 12345.67

2. 指标类型

Counter（计数器）：单调递增，适用于请求数、错误数统计。
Gauge（仪表盘）：瞬时值，如内存使用量、温度。
Histogram（直方图）：分桶统计，用于请求延迟分布。
Summary（摘要）：客户端计算的百分位数，适用于复杂统计。

3. 典型应用场景

基础设施监控：通过 node_exporter 采集 CPU、内存、磁盘等指标。
微服务监控：集成 Istio、Kubernetes，实现服务网格的可观测性。
业务指标分析：统计用户活跃数（DAU）、订单成功率等自定义指标。

五、Prometheus 的优劣分析与生态对比

1. 优势

云原生友好：天然适配 Kubernetes，支持服务动态发现。
高效存储：TSDB 的压缩比高达 1.5x-2x，节省磁盘空间。
社区生态丰富：与 Grafana、Alertmanager 深度集成，支持 Exporter 超过 500 种。

2. 局限性

集群化支持不足：单机性能瓶颈（默认支持 10 万指标/秒），需通过 Thanos 或 Cortex 扩展。
实时性有限：数据抓取依赖间隔配置，不适合秒级监控场景。

3. 与其他监控系统对比

特性	Prometheus	Zabbix	ELK Stack
数据模型	多维度时序数据	结构化数据	日志与文档
扩展性	水平扩展需第三方组件	垂直扩展为主	天然分布式
适用场景	容器化环境、实时分析	传统 IT 基础设施	日志分析与全文检索
部署复杂度	中等	高	高