Prometheus添加钉钉监控

本文档介绍了如何在Prometheus中配置和部署alertmanager以实现钉钉监控。首先,你需要修改alertmanager.yml和alert_rule.yml文件来设置告警规则。接着,更新prometheus.yml文件并添加相关配置,最后重启Prometheus服务以应用变更。

配置

#部署钉钉webhook填写钉钉机器人token
docker run -d -p 8060:8060 --name webhook timonwong/prometheus-webhook-dingtalk --ding.profile="webhook1=https://oapi.dingtalk.com/robot/send?access_token=$dingding_token"

修改ops/alert/alertmanager.yml

global:
  resolve_timeout: 5m
route:
  receiver: stos_ops
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 5h
  group_by: [alertname]
  routes:
  - receiver: stos_ops
    group_wait: 30s
receivers:
- name: stos_ops
  webhook_configs:
  - url: http://XXX:8060/dingtalk/webhook1/send
    send_resolved: true

修改alert/alert_rule.yml告警规则

groups:
- name: hs_f0158133_alert_group
  rules:
  - alert: CPU_负载告警
    expr: node_load1{
   
   job="worker_seal_system_monitor"} > 80
    for: 30m
    labels:
      severity: "warning"
    annotations:
      summary: "{
   
   {
   
   $labels.instance}}:CPU核数使用率过高"
      description: "设备 {
   
   { $labels.instance }} CPU 使用核数超过80核,current value is  {
   
   { $value }} "
  - alert: 设备挂机告警
    expr: up{
   
   job=~"worker_seal_system_monitor|worker_store_system_monitor|miner_system_monitor|lotus_system_monitor"} == 0
    for: 1m
    labels:
      severity: "critical"
    annotations:
      summary: "{
   
   {
   
   $labels.instance}} 挂机了"

  - alert: /data1使用率告警
    expr: ceil((node_filesystem_size_bytes{mountpoint =~"/rootfs/data1",job!="worker_store_system_monitor"}
Prometheus是一个开源的监控系统,可以用于收集、存储和查询各种指标数据。而钉钉是一款流行的即时通讯工具,可以用于发送告警通知。下面是配置Prometheus钉钉告警的步骤: 1. 首先,你需要在钉钉中创建一个机器人。打开钉钉工作台,选择你要接收告警通知的群组,点击群设置,然后选择机器人管理,创建一个自定义机器人,并获取到机器人的Webhook地址。 2. 在Prometheus的配置文件`prometheus.yml`中添加以下内容: ```yaml alerting: alertmanagers: - static_configs: - targets: - localhost:9093 rule_files: - "path/to/your/rules/*.rules" alertmanager_configs: - static_configs: - targets: - "钉钉机器人的Webhook地址" ``` 3. 创建一个告警规则文件,例如`alert.rules`,并将以下内容添加到文件中: ```yaml groups: - name: example rules: - alert: HighErrorRate expr: job:request_error_rate > 0.5 for: 5m labels: severity: critical annotations: summary: "High error rate detected" description: "The error rate is above 0.5 for the last 5 minutes." ``` 这个例子中定义了一个告警规则,当请求错误率超过0.5时,将触发告警,并发送到钉钉机器人。 4. 启动Prometheus和Alertmanager,并确保Prometheus能够加载告警规则文件。你可以通过访问Prometheus的Web界面来验证规则是否生效。 5. 当触发告警时,Prometheus会将告警发送给Alertmanager,然后Alertmanager会将告警发送给配置的钉钉机器人,从而实现钉钉告警。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值