在Prometheus的架构中,告警功能由Prometheus Server和Alertmanager 协同完成,Prometheus Server负责收集目标实例的指标,定义告警规则以及产生警报,并将相关的警报信息发送到Alertmanager。
Alertmanager则负责对告警信息进行管理 ,根据配置的接收人信息,将告警发送到对应的接收人与介质 。
1、添加告警规则
告警规则配置在独立的文件中,文件格式为yml,并在prometheus.yml文件的rule_files模块中进行引用。如下:
rule_files:
- "/etc/prometheus/rules/myrules.yml"
引用的文件路径支持正则表达式方式,如果有多个文件时,可以用下列的方式匹配
rule_files:
- "/etc/prometheus/rules/*.yml"
- "/data/prometheus/rules/prd-*.yml"
默认情况下,Prometheus会每隔一分钟对这些告警规则进行计算,如果用户想定义自己的告警计算周期,可在global 模块中配置evaluation_interval参数来控制。
global:
evaluation_interval: 15s
在告警规则文件中, 可以将一组相关的规则设置定义在一个group下,在每一个group中我们可以定义多个告警规则。如下是一条标准的告警规则,用于检测实例状态是否正常。

最低0.47元/天 解锁文章
2157

被折叠的 条评论
为什么被折叠?



