@
Prometheus(普罗米修斯)监控
Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包 。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发人员和用户社区 。
使用prometheus的特性
- 易管理性
Prometheus核心部分只有一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储
-
不依赖分布式存储,单服务器节点是自治的
-
高效
单一Prometheus可以处理数以百万的监控指标;每秒处理数十万
的数据点
-
易于伸缩
Prometheus提供多种语言 的客户端SDK,这些SDK可以快速让应用程序纳入到Prometheus的监控当中
-
通过服务发现或静态配置发现目标
-
良好的可视化
除了自带的可视化web界面,还有另外最新的Grafana
可视化工具也提供了完整的Proetheus支持,基于 Prometheus提供的API还可以实现自己的监控可视化UI
docker搭建prometheus监控
环境:
- 全部关闭防火墙,禁用selinux
主机 | IP | 安装组件 |
---|---|---|
machine | 172.16.46.111 | NodeEXporter、cAdvisor、 Prometheus Server、Grafana |
node01 | 172.16.46.112 | NodeEXporter、cAdvisor |
node02 | 172.16.46.113 | NodeEXporter、cAdvisor |
安装prometheus组件说明:
Prometheus Server:
普罗米修斯的主服务器,端口号9090
NodeEXporter:
负责收集Host硬件信息和操作系统信息,端口号9100
cAdvisor:
负责收集Host上运行的容器信息,端口号占用8080
Grafana:
负责展示普罗米修斯监控界面,端口号3000
altermanager:
等待接收prometheus发过来的告警信息,altermanager再发送给定义的收件人
部署node-EXporter,收集硬件和系统信息
#3台主机都要安装
docker run -d -p 9100:9100 -v /proc:/host/proc -v /sys:/host/sys -v /:/rootfs --net=host prom/node-exporter --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)"
PS:注意,为了网络的高效率,我们的网络使用的是host
验证收集效果
部署安装cAdvisor,收集节点容器信息
#3台都要安装
docker run -v /:/rootfs:ro -v /var/run:/var/run/:rw -v /sys:/sys:ro -v /var/lib/docker:/var/lib/docker:ro -p 8080:8080 --detach=true --name=cadvisor --net=host google/cadvisor
验证收集效果传递
部署prometheus-server服务
先启动一个prometheus服务,目的是复制他的配置文件,修改配置文件,prometheus挂载这个文件
mkdir /prometheus
docker run -d --name test -P prom/prometheus
docker cp test:/etc/prometheus/prometheus.yml /prometheus
#编辑prometheus配置文件,在static_configs下面修改为
#以下添加的ip都将会被监控起来
- targets: ['localhost:9090','localhost:8080','localhost:9100','172.16.46.112:8080','172.16.46.112:9100','172.16.46.113:8080','172.16.46.113:9100']
重新运行prometheus服务
收集cAdvisor和nodexporter的信息到prometheus
docker rm -f test
docker run -d --name prometheus --net host -p 9090:9090 -v /prometheus/prometheus.yml:/etc/prometheus/prometheus.yml prom/prometheus
访问测试
进入首页会看到
在这里会出现简单的图形展示,和显然,这样看的话还得根据条件筛选着看,而且界面很简单,所以我们还要接入grafana
在prometheus服务器上部署grafana
grafana主要概念
- 插件:扩展功能作用,完成不能完成的事
- 数据源:连接数据源,通过数据源提供数据 来出图
- dashboard:展示面板,出什么样的图
grafana在zabbix应用参考: https://blog.youkuaiyun.com/weixin_43815140/article/details/106109605
部署grafana
mkdir /grafana
chmod 777 -R /grafana
docker run -d -p 3000:3000 --name grafana -v /grafana:/var/lib/grafana -e "GF_SECURITY_ADMIN_PASSWORD=123.com" grafana/grafana
访问测试
默认的用户名和密码:
username:admin
password:123.com
登录进去,添加数据源
连接prometheus
点击save&test开始开始连接
看到以上说明连接成功,不过还需要dashboard来展示图案
prometheus提供3种自带的方案
import后看一下效果
看起来效果比原来好的太多了,不过
grafana官网提供了更多的模板让我们选择 官网模板根据我们的需求可以在官网挑选一款合适自己环境的模板不是很难。
导入模板的2种方式
- 下载JSON文件到本地,uoload上传导入
- 直接输入ID,load就会自动加载到这个模板
我们就导入上面的模板为例
小微调试以后,会出现
不过这只是监控的宿主机资源信息,如果我们想看docker容器的信息
在官网查找与docker有关的模板导入并使用
找到一款全部适合的(ID:11600)
配置Alertmanager报警
启动 AlertManager 来接受 Prometheus 发送过来的报警信息,并执行各种方式的报警。
alertmanager与prometheus工作流程如下
- prometheus收集监测的信息
- prometheus.yml文件定义rules文件,rules里包括了告警信息
- prometheus把报警信息push给alertmanager ,alertmanager里面有定义收件人和发件人
- alertmanager发送文件给邮箱或微信
告警等级
同样以 Docker 方式启动 AlertManager
同prometheus一样,先启动一个test容器,拷贝下来alertmanager的配置文件
mkdir /alertmanager
docker run -d --name test -p 9093:9093 prom/alertmanager
docker cp test:/etc/alertmanager/alertmanager.yml /alertmanager
cp alertmanager.yml alertmanager.yml.bak
AlertManager 默认配置文件为 alertmanager.yml,在容器内路径为
/etc/alertmanager/alertmanager.yml
这里 AlertManager
默认启动的端口为 9093,启动完成后,浏览器访问http://:9093 可以看到默认提供的 UI 页面,不过现在是没有任何告警信息的,因为我们还没有配置报警规则来触发报警
配置alertmanager邮箱报警
查看alertmanager的配置文件
简单介绍一下主要配置的作用:简单介绍一下主要配置的作用:
global: 全局配置,包括报警解决后的超时时间、SMTP 相关配置、各种渠道通知的 API 地址等等。
route: 用来设置报警的分发策略,它是一个树状结构,按照深度优先从左向右的顺序进行匹配。
receivers: 配置告警消息接受者信息,例如常用的 email、wechat、slack、webhook 等消息通知方式。
inhibit_rules: 抑制规则配置,当存在与另一组匹配的警报(源)时,抑制规则将禁用与一组匹配的报警(目标)。
配置邮箱报警,首先我们邮箱需要开启SMTP服务,并获取唯一标识码
编辑alertmanager.yml文件
编辑报警媒介等相关信息
global:
resolve_timeout: 5m
smtp_from: 'Sunny_lzs@foxmail.com' #定义发送的邮箱
smtp_smarthost: 'smtp.qq.com:465'
smtp_auth_username: 'Sunny_lzs@foxmail.com'
smtp_auth_password: 'iwxrdwmdgofdbbdc'
smtp_require_tls: false
smtp_hello: 'qq.com'
route:
group_by: ['alertname']
group_wait: 5s
group_interval: 5s
repeat_interval: 5m
receiver: 'email'
receivers:
- name: 'email'
email_configs:
- to: 'Sunny_lzs@foxmail.com' #定义接收的邮箱
send_resolved: true
inhibit_rules:
- source_match:
severity: 'critical'
target_match:
severity: 'warning'
equal: ['alertname', 'dev', 'instance']
重启alertmanager容器
docker rm -f test
docker run -d --name alertmanager -p 9093:9093 -v /alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager
prometheus添加alertmanager报警规则
接下来,我们需要在 Prometheus 配置 AlertManager 服务地址以及告警规则,新建报警规则文件 node-up.rules
如下
mkdir /prometheus/rules
cd /prometheus/rules
vim node-up.rules
groups:
- name: node-up
rules:
- alert: node-up
expr: up{
job="prometheus"} == 0
for: 15s
labels:
severity: 1
team: node
annotations:
summary: "{
{ $labels.instance }} 已停止运行超过 15s!"
修改prometheus.yml文件,添加rules规则
PS:这里 rule_files 为容器内路径,需要将本地 node-up.rules 文件挂载到容器内指定路径,修改 Prometheus 启动命令如下,并重启服务。
docker rm -f prometheus
docker run -d --name prometheus -p 9090:9090 -v /prometheus/prometheus.yml:/etc/prometheus/prometheus.yml -v /prometheus/rules:/usr/local/prometheus/rules --net host prom/prometheus
在prometheus上查看相应的规则
触发报警发送邮件
关掉其中一个服务就ok
[