prometheus之监控告警

alert是一个单独的模块,需要单独配置,需要声明邮箱地址。配置以configmap进行配置,altermanager用pod部署在k8s集群中

prometheus监控告警实验

1、设置发送告警邮箱授权码

2、创建告警configmap配置文件

3、创建prometheus的configmap文件

### 使用 Prometheus 监控进程并实现告警配置 #### 安装和启动 Node Exporter 为了使 Prometheus 能够收集有关主机及其进程的信息,通常会在目标机器上安装 `node_exporter`。通过检查 `/etc/systemd/system/node-exporter.service` 文件可以确认服务单元文件的内容[^2]: ```ini [Unit] Description=Prometheus Node exporter After=network.target [Service] ExecStart=/opt/monitoring/node_exporter [Install] WantedBy=multi-user.target ``` 这表明 node_exporter 将作为 systemd 服务运行,在网络准备就绪之后启动。 #### 配置 Prometheus 抓取节点数据 接下来需要编辑 Prometheus 的配置文件(通常是 `prometheus.yml`),添加 job 来抓取来自 node_exporter 的指标。这部分涉及指定静态配置中的 targets 和 labels: ```yaml scrape_configs: - job_name: 'node' static_configs: - targets: ['localhost:9100'] labels: instance: my_instance_label ``` 上述 YAML 片段定义了一个名为 "node" 的作业,它会定期从本地的 node_exporter 实例获取度量标准,默认端口为 9100。 #### 设置告警规则 创建一个新的告警规则文件 (例如 `alert.rules`) 或者修改现有的规则集来增加针对特定进程状态变化触发的通知条件。下面是一个简单的例子,当某个重要进程不再存在时发出警告: ```yaml groups: - name: process_monitoring rules: - alert: ProcessDown expr: absent(process_start_time_seconds{job="node",name=~"important_process"}) for: 5m labels: severity: critical annotations: summary: "{{ $labels.name }} is down on {{ $labels.instance }}" description: "Process has been down for more than 5 minutes." ``` 这段代码片段设置了如果在过去五分钟内未检测到名称匹配的重要进程,则触发告警通知,并附带详细的描述信息[^1]。 #### 整合 Alertmanager 处理告警消息 最后一步是确保已经正确配置好了 Alertmanager 接收由 Prometheus 发送过来的告警事件,并按照预设的方式分发给相关人员或系统。一旦完成了这些步骤,就可以验证整个流程是否正常工作了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值