Prometheus 监控系统入门学习

dd455777b4a71642737c896c331b4eb8.gif

学习目标

能够安装prometheus服务器

能够通过安装node_exporter监控远程linux

能够通过安装mysqld_exporter监控远程mysql数据库

能够安装grafana

能够在grafana添加prometheus数据源

能够在grafana添加监控cpu负载的图形

能够在grafana图形显示mysql监控数据

能够通过grafana+onealert实现报警

任务背景

某某某公司是一家电商网站,由于公司的业务快速发展,公司要求对现有机器进行业务监控,责成运维部门来实施这个项目。

任务要求

1)部署监控服务器,实现7x24实时监控

2)针对公司的业务及研发部门设计监控系统,对监控项和触发器拿出合理意见

3)做好问题预警机制,对可能出现的问题要及时告警并形成严格的处理机制

4)做好监控告警系统,要求可以实现告警分级

一级报警 电话通知

二级报警 微信通知

三级报警 邮件通知

5)处理好公司服务器异地集中监控问题,K8S内部使用的监控系统就是普罗米修斯

任务分析

为什么要监控?

答: 实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以提供依据。

监控四要素:

监控对象 [主机状态 服务 资源 页面,url]

用什么监控 [zabbix-server zabbix-agent] => 普罗米修斯监控

什么时间监控 [7x24 5x8]

报警给谁 [管理员]

一、Prometheus概述

Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展。

https://prometheus.io/docs/introduction/overview/

二、时间序列数据

1、什么是序列数据

时间序列数据(TimeSeries Data) : 按照时间顺序记录系统、设备状态变化的数据被称为时序数据。

应用的场景很多, 如:

  • 无人驾驶车辆运行中要记录的经度,纬度,速度,方向,旁边物体的距离等等。每时每刻都要将数据记录下来做分析。

  • 某一个地区的各车辆的行驶轨迹数据

  • 传统证券行业实时交易数据

  • 实时运维监控数据等

2、时间序列数据特点

  • 性能好

关系型数据库对于大规模数据的处理性能糟糕。NOSQL可以比较好的处理大规模数据,让依然比不上时间序列数据库。

  • 存储成本低

高效的压缩算法,节省存储空间,有效降低IO

Prometheus有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概花了200多G(来自官方数据)

3、Prometheus的主要特征

  • 多维度数据模型

  • 灵活的查询语言

  • 不依赖分布式存储,单个服务器节点是自主的

  • 以HTTP方式,通过pull模型拉去时间序列数据

  • 也可以通过中间网关支持push模型

  • 通过服务发现或者静态配置,来发现目标服务对象

  • 支持多种多样的图表和界面展示

4、普罗米修斯原理架构图

a68c4ebba4dbaa5c25c8b0140c05abc0.png

三、实验环境准备

559848a7ac9741d931f78ab5941707c5.png

1. 静态ip(要求能上外网)

2. 主机名

3091e2646dbe5e7713aa8b0a72ef9198.png

3. 时间同步(时间同步一定要确认一下)

4. 关闭防火墙,selinux

aadaae173bd0924dfbcb96df203c3dec.png

1、安装prometheus

从 https://prometheus.io/download/ 下载相应版本,安装到服务器上

官网提供的是二进制版,解压就能用,不需要编译

04820c7a5b97dc7d55fe37e1eaec45ab.png

2、prometheus界面

通过浏览器访问http://服务器IP:9090就可以访问到prometheus的主界面

f044a14864b4d0c6580f2638433057b4.png

默认只监控了本机一台,点Status --》点Targets --》可以看到只监控了本机

93ad326308bf3d0ab9b72f67a2ac0118.png

3、主机数据展示

通过http://服务器IP:9090/metrics可以查看到监控的数据

5d67e6cd30b8b9061453e10faab147dd.png

在web主界面可以通过关键字查询监控项

154a0b3e7b359b5e052718b49909ec4d.png

4、监控远程Linux主机

① 在远程linux主机(被监控端agent1)上安装node_exporter组件

下载地址: https://prometheus.io/download/

ca9713197d4e722d5f6847cb1dab3734.png

扩展: nohup命令: 如果把启动node_exporter的终端给关闭,那么进程也会随之关闭。nohup命令会帮你解决这个问题。

② 通过浏览器访问http://被监控端IP:9100/metrics就可以查看到node_exporter在被监控端收集的监控信息

cc589360d6708b4b7a4c23a91ec71b29.png

③ 回到prometheus服务器的配置文件里添加被监控机器的配置段

526c9ec8f306e4cf52019d0c8644b958.png

④ 回到web管理界面 --》点Status --》点Targets --》可以看到多了一台监控目标

b22dfedbe4e92ff4f251f25e35d4f899.png

练习: 加上本机prometheus的监控

答: 在本机安装node_exporter,也使用上面的方式监控起来。

5、监控远程MySQL

① 在被管理机agent1上安装mysqld_exporter组件

下载地址: https://prometheus.io/download/

b124c596e034306e53171a0247237008.png

501776dc71ffd4287184e086e87692d8.png

② 回到prometheus服务器的配置文件里添加被监控的mariadb的配置段

ddc23fa5d84623e726642861644cbd8d.png

③ 回到web管理界面 --》点Status --》点Targets --》可以看到监控mariadb了

3209d04af948bb18044f3568a222090b.png

6e7b1291ee728dbe08e844c339dd616a.png

四、Grafana可视化图形工具

1、什么是Grafana

Grafana是一个开源的度量分析和可视化工具,可以通过将采集的数据分析,查询,然后进行可视化的展示,并能实现报警。

4c57979cf79ae53c500c5a5415ad04ef.png

网址: https://grafana.com/

2、使用Grafana连接Prometheus

① 在grafana服务器上安装grafana

下载地址:https://grafana.com/grafana/download

244b2f3bacc40afd206cb330131f31d5.png

② 通过浏览器访问 http:// grafana服务器IP:3000就到了登录界面,使用默认的admin用户,admin密码就可以登陆了

15185aa80c5b4c075e037e424a34f208.png

③ 下面我们把prometheus服务器收集的数据做为一个数据源添加到grafana,让grafana可以得到prometheus的数据。

9874e1df48b53fb12b42b2211a1900be.png

9b534fb4e79863687be20e3320fcbde1.png

e27e2ac2cdf02ebbc9b1c6a6bceec943.png

c0d08473354e42decbfadd88d040a664.png

④ 然后为添加好的数据源做图形显示

2c9d42ffd1a87c4c10b39ade05f8db53.png

8c3baab682acbe53781715f8b0d5c66d.png

0e38135d357776ae598e0a9858aa119f.png

29042df33f477e3634c29a85ffea82f2.png

⑤ 保存

e9def51450ca7032d6404f3528e7b725.png

⑥ 最后在dashboard可以查看到

94af2705e2ff0992946909d62a025a07.png

⑦ 匹配条件显示

c40b60c79ad4b689295949c6e10bfe7b.png

d33cfbd0865c01b2cf9b6ffe2446aef2.png

3、Grafana图形显示MySQL监控数据

① 在grafana上修改配置文件,并下载安装mysql监控的dashboard(包含相关json文件,这些json文件可以看作是开发人员开发的一个监控模板)

参考网址: https://github.com/percona/grafana-dashboards

1a90abb19f4f779cbfe148553866135e.png

② 在grafana图形界面导入相关json文件

1d326f8c5f69a6ce94e0b7fe8c6a0006.png

3814eedd1200d5e4b6315fa0033510ea.png

③ 点import导入后,报prometheus数据源找不到,因为这些json文件里默认要找的就是叫Prometheus的数据源,但我们前面建立的数据源却是叫prometheus_data(坑啊)

那么请自行把原来的prometheus_data源改名为Prometheus即可(注意:第一个字母P是大写)

然后再回去刷新,就有数据了(如下图所示)

6d6e29cc1ace6727987a1a412f94a6ac.png

④ 过段时间再看,就会有数据了(如下图所示)

1ba90537dd8957e4617a3f0b3f561dd0.png

4、Grafana+onealert报警

prometheus报警需要使用alertmanager这个组件,而且报警规则需要手动编写(对运维来说不友好)。所以我这里选用grafana+onealert报警。

注意: 实现报警前把所有机器时间同步再检查一遍.

① 先在onealert里添加grafana应用(申请onealert账号在zabbix已经讲过)

e1c668f9d306fc37ef08cf9a6de252b5.png

a573f3d7cfe056b3c9624ca5078eb39b.png

② 配置通知策略

118bd622ec4c13d8ab166f25f1b5c56f.png

③ 在grafana增加通知通道

f5976e0470334f3c40acad50e577f1c1.png

7b78ab71a6d1f8d6444c10b90324f33c.png

e252800188088851ecab546c842c5113.png

④ 现在可以去设置一个报警来测试了(这里以我们前面加的cpu负载监控来做测试)

233896fe98d7366c3e5d8b03b278509f.png

1f571da486f0f8bc99ea67608651a963.png

a7e3b5f0fac19523f4e29b2ecdca82d2.png

5ff6102b57d61f3526d8284c652842a6.png

⑤ 保存后就可以测试了

如果agent1上的cpu负载还没有到0.5,你可以试试0.1,或者运行一些程序把agent1负载调大。最终能测试报警成功。

8af9a555c80cad0514bbe44521cce4e4.png

最终的邮件报警效果:

b470f800d38f122e33e7e7938f6adb72.png

测试mysql链接数报警

b71c8ac373898ed84744aff06788150f.png

ccca7c59f1a208a63ed3e8d165eed0a7.png

8e1f09b23cd51346561225d6c8d0629d.png

f99ff90aeeb19a8f01da72ca56e6e6f1.png

f926fea532b80cd9f736f2a2d7106885.png

5、总结报警不成功的可能原因

  • 各服务器之间时间不同步,这样时序数据会出问题,也会造成报警出问题

  • 必须写通知内容,留空内容是不会发报警的

  • 修改完报警配置后,记得要点右上角的保存

  • 保存配置后,需要由OK状态变为alerting状态才会报警(也就是说,你

  • 配置保存后,就已经是alerting状态是不会报警的)

  • grafana与onealert通信有问题

来自twt社区会员分享,版权归原作者所有

Linux学习指南
有收获,点个在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值