Flower项目与Prometheus监控系统集成指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00588/article/details/148465445

Flower项目与Prometheus监控系统集成指南

flower Real-time monitor and web admin for Celery distributed task queue 项目地址: https://gitcode.com/gh_mirrors/fl/flower

概述

Flower作为Celery的实时监控工具，提供了与Prometheus监控系统的原生集成能力。本文将详细介绍如何配置Flower与Prometheus的集成，以及如何利用这套监控方案来全面掌握Celery集群的运行状态。

核心概念

在开始配置前，我们需要了解几个关键概念：

Prometheus：开源的系统监控和警报工具，采用拉取(pull)模式收集指标数据
Flower：Celery的实时监控工具，提供Web界面和Prometheus格式的指标输出
指标(Metrics)：系统运行状态的量化表示，如任务执行次数、执行时间等

基础配置

启用Flower的Prometheus指标

Flower默认会在5555端口提供/metrics端点，无需额外配置。安装完成后，您可以通过以下URL访问指标：

http://localhost:5555/metrics

Prometheus配置

要让Prometheus收集Flower的指标，需要在Prometheus的配置文件中添加Flower作为抓取目标。以下是典型的配置示例：

global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: prometheus
    static_configs:
      - targets: ['localhost:9090']
  - job_name: flower
    static_configs:
      - targets: ['localhost:5555']

配置说明：

scrape_interval：指标抓取间隔
job_name：定义监控任务的名称
targets：指定Flower服务的地址和端口

可用指标详解

Flower提供了丰富的Celery相关指标，以下是主要指标的详细说明：

| 指标名称 | 类型 | 描述 | 标签 | |---------|------|------|------| | flower_events_total | Counter | 记录Celery任务事件的总次数 | task, type, worker | | flower_task_prefetch_time_seconds | Gauge | 任务在worker队列中等待执行的时间 | task, worker | | flower_worker_prefetched_tasks | Gauge | worker预取的任务数量 | task, worker | | flower_task_runtime_seconds | Histogram | 任务实际执行时间的分布 | task, worker | | flower_worker_online | Gauge | worker在线状态(1在线/0离线) | worker | | flower_worker_number_of_currently_executing_tasks | Gauge | worker当前正在执行的任务数 | worker |

指标标签使用技巧

Prometheus的强大之处在于可以通过标签对指标进行灵活筛选。Flower提供的指标包含以下标签：

task：标识具体任务，如"tasks.add"
type：标识任务事件类型，如"task-started"
worker：标识具体worker实例

使用示例：

flower_events_total{task="tasks.add", type="task-succeeded"}

这个查询将返回所有"tasks.add"任务成功执行的总次数。

监控方案扩展

告警规则示例

基于Flower提供的指标，可以设置多种告警规则，例如：

groups:
- name: celery_alerts
  rules:
  - alert: WorkerOffline
    expr: flower_worker_online == 0
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "Worker {{ $labels.worker }} is offline"

这个规则会在worker离线超过5分钟时触发告警。