
系统监控
文章平均质量分 85
系统监控
木讷大叔爱运维
对的那条路,往往不是最好走的!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
业务流程监控:让多维度监控有了灵魂
图形化的业务流程监控给我们运维打开了另一个维度的监控思路。原创 2022-12-11 10:50:14 · 1809 阅读 · 1 评论 -
可视化业务流程监控,是解决方案更是运维之道!
`监控和业务分离`一直是我们所忽略的问题,随着架构和业务规模不断发展,一般情况下的多维度监控虽然可以在业务应用可用性方面发挥重要的作用,但是无法做到和业务流程进行有效关联。此时就需要更懂或者更了解业务的相关人员进一步判断,这无疑大大延长了故障时间,严重影响了我们的SLA。原创 2022-09-17 15:26:48 · 1437 阅读 · 0 评论 -
漏了监控:Zabbix对Eureka instance状态监控
由于Eureka Server服务发现状态异常,此时是无法正常对外提供服务的。如果运维不及时检查Eureka管理界面每个client状态时,那么就会差生一起生产事故。原创 2022-07-04 22:11:11 · 922 阅读 · 0 评论 -
Bug:Zabbix对Kafka topic积压数据监控
《Zabbix监控Kafka topic积压数据》一文的目的是通过Zabbix自动发现实现对多个消费者组的Topic及Partition的Lag进行监控。因在实际监控中发现有问题,为给感兴趣的读者不留坑,特通过此文对监控进行优化调整。...原创 2022-06-30 22:21:33 · 1079 阅读 · 0 评论 -
Zabbix监控Kafka topic积压数据
KafkaApache Kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点。Kafka适合离线和在线消息消费。Kafka消息保留在磁盘上,并在群集内复制以防止数据丢失。Kafka构建在ZooKeeper同步服务之上。它与Apache Storm和Spark非常好地集成,用于实时流式数据分析。需求虽然我们在生产环境中可以使用Kafka对业务进行解耦,但这并不意味着业务系统就高枕无忧了。消费者的消费速度是否能够匹配生产速度、过多的消原创 2022-05-24 08:27:53 · 2435 阅读 · 0 评论 -
滴滴夜莺:从监控告警系统向运维平台演化
简述滴滴夜莺(Nightingale)是一款经过大规模生产环境验证的、分布式高性能的运维监控系统。基于Open-Falcon,结合滴滴内部的最佳实践,在性能、可维护性、易用性方面做了大量的改进,支撑了滴滴内部数十亿监控指标,覆盖了从系统、容器、到应用等各层面的监控需求。夜莺于2020年3月底开源至今,GitHub Star已突破2000,并且于9月底发布了最新的3.0版本。本次更新夜莺被拆成了四个子系统,分别是:用户资源中心(RDB)平台底座,所有的运维系统,都需要依赖这个,内置用户、权限、角色、原创 2020-10-15 15:27:24 · 5444 阅读 · 8 评论 -
集群外独立部署Prometheus+Grafana监控K8S全面解析
简介Prometheus+Grafana作为监控K8S的解决方案,大都是在K8S集群内部部署,这样可以直接调用集群内的cert及各种监控url,但是增加了集群的资源开销。因此在资源有限的情况下,我更倾向于K8S集群外独立部署Prometheus+Grafana。虽然Prometheus+Grafana独立部署,但是收集不同维度监控指标的exporter需要部署在集群内,主要有以下三种:维度工具监控url备注Pod性能kubelet cadvisor/api/v1/node原创 2020-10-09 08:44:17 · 13465 阅读 · 15 评论 -
PMM:最佳的开源数据库监视解决方案
Percona Monitoring and Management是一个用于管理和监视MySQL、MongoDB、PostgreSQL和MariaDB性能的开源平台,我们可以在自己的环境中运行该插件,以实现最大的安全性和可靠性。它为数据库服务器提供了基于时间的全面分析,以确保您的数据尽可能高效地工作。PMM可以说是同类最佳的开源数据库监视解决方案。它可以帮助您降低关键业务数据库环境的复杂性,优化性能并提高其安全性,无论它们位于何处或部署在何处。C/S架构PMM平台基于可扩展的客户端-服务器模型。 它包原创 2020-09-25 08:03:28 · 1906 阅读 · 0 评论 -
grafana+alertmanager 微信报警发送给不同告警人
需求grafana+elk+alertmanager实现微信报警至不同部门简介grafana+alertmanager实现微信报警 这篇文章中详述了grafana+alertmanager的微信报警实现过程。alertmanager默认情况下告警接收人为wechat,也就是默认对test1发送微信告警。vim grafana.ymlglobal: resolve_timeout: ...原创 2019-12-30 10:03:09 · 4438 阅读 · 0 评论 -
zabbix监控华为服务器硬件状态
简介zabbix监控华为服务器的硬件是通过iBMC,iBMC系统默认支持V3版本的SNMP服务,SNMP V1和SNMP V2C由于自身机制存在安全隐患,默认是不开启的。如果使用SNMP V1和SNMP V2C需要配置团体名,而用V3只需知道用户名密码及加密算法即可。我们可以现在zabbix server上安装snmpwalk,然后进行如下测试:[root@test ~]# snmpwalk -v原创 2018-03-02 16:39:05 · 15682 阅读 · 1 评论 -
zabbix监控服务器部署
1.安装mysql5.7cd /App/srcrpm -Uvh https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpmyum install mysql-* --skip-broken 2.安装apache+phpyum install httpd -yyum install php -y...原创 2018-03-02 16:49:59 · 517 阅读 · 0 评论 -
zabbix3.4使用percona-monitoring-plugins监控mysql
简介之前主要使用nagios监控mysql,本文主要介绍使用percona-monitoring-plugins监控mysql,percona监控插件是php开发,因此要在agent安装php环境。配置安装一.zabbix-agent端操作1.安装软件依赖yum install php php-mysql -y2.安装percona插件#centos 6rpm -Uvh https://www.p原创 2018-03-22 17:33:17 · 1872 阅读 · 0 评论 -
nagios通过python监控zookeeper+activemq
简介 之前讲过基于zookeeper+leveldb实现activemq集群,但是没有关于这方面的合适监控方案,因此本文通过python脚本,由nagios调用实现监控zookeeper+activemq。ps:在网上找了一些nagios插件,用perl或ruby需要安装额外的组件,安装起来就比较麻烦;而通过python什么也不需要安装,nagios直接就可以调用,可能没有人家专业,但对我来说够用原创 2016-07-12 16:04:54 · 2347 阅读 · 0 评论 -
zabbix3.4监控VMware ESXI虚拟主机
简介为了解ESXI虚拟主机的运行状况,通过zabbix进行监控,图形展示ESXI虚拟主机当前的状态。在此我们直接引用zabbix官方介绍虚拟机监控,并对个别地方进行补充描述。概述从 Zabbix 2.2.0 开始支持对 VMware 的监控。Zabbix 可以使用 low-level discovery 自动发现 VMware hypervisors 和 虚拟机,并根据事先...原创 2018-04-12 11:50:34 · 37478 阅读 · 10 评论 -
zabbix监控mysql的tps和qps
通过zabbix监控mysql的tps和qps,我们之前的percona mysql模板是没有关于这两个监控项的,需要我们通过脚本进行统计分析。 一、脚本思路:#统计qps来源show global status where Variable_name in('com_select','com_insert','com_delete','com_update');#统计tps来源sho...原创 2018-04-25 17:25:05 · 3714 阅读 · 4 评论 -
zabbix3.4接入微信报警
简介微信作为日常使用最频繁的工具,因此希望将微信接入zabbix报警。微信企业号1.申请微信企业号 申请后,请在“我的企业”页面下记录企业号的CorpID 2.添加通讯录 部门添加完成后,根据实际情况添加子部门或相关成员,如下: 3.创建应用 在“企业应用”页面创建应用 注意: 可见范围一定要添加需要收到报警的人员或部门,否则zabbix报警信息无法推送...原创 2018-04-26 15:37:38 · 19276 阅读 · 23 评论 -
grafana+alertmanager实现微信报警
一、需求实现网站的流量监控,之前希望通过elk+python+zabbix实现微信报警,需要通过elk的dsl语句查询,实现起来比较麻烦。由于grafana的多数据源特性,结合alertmanager实现微信报警。二、实现1.alertmanageralertmanager为prometheus一个单独的报警模块,具有分组、抑制、静默等功能。(1) 配置vim grafana.yml...原创 2019-07-09 16:16:35 · 14785 阅读 · 1 评论 -
zabbix实现nginx的摘节点状态监控
需求1.jenkins在应用发版过程中的java进程重启,会导致监控系统报警,此类发版过程报警运维人员可忽略;2.jenkins在应用在发版过程中的java进程重启,nginx代理会进行摘节点操作,保证服务对外无影响;3.zabbix监控系统需求对nginx的摘节点行为进行监控(发版过程中的摘节点不进行报警);4.对nginx摘节点行为进行excel记录,记录time,upstream,n...原创 2019-07-24 10:13:03 · 625 阅读 · 0 评论 -
nagios+logstash实时监控java日志(一)
简介 nagios插件check_logfiles可以监控日志,但是实时性及监控效果都不尽如人意。因此介绍naigos的nsca被动监控结合logstash进行日志的实时监控。此种方式适合日质量比较比较小的情况下,如果日志量比较大,logstash还需要配合redis/kafka等工具进行。需求nagios 实时监控java日志,当日志中出现ERROR字段时,进行报警通知。 IP host原创 2017-03-20 10:24:11 · 3740 阅读 · 0 评论 -
nagios+logstash实时监控java日志(二)
简介 nagios+logstash实时监控java日志(一)中我们配置java日志输出到logstash的4800端口进行收集。此种收集方式有以下几个问题: 1.若INFO级别的日志量很大,java程序向logstash端口输出日志慢阻塞,导致java程序运行异常; 2.logstash进程可能宕掉,java无法输出日志,导致服务异常; 通过以上两种情况,我们还是调整下思路:java日志打原创 2017-05-12 09:05:50 · 2043 阅读 · 0 评论 -
nagios监控mysql
nagios监控mysql的工具比较多,个人比较喜欢的一个是check_mysql_health,下面就来介绍一下。网址:https://labs.consol.de/nagios/check_mysql_health监控项如下:#连接数据库时间connection-time (Time to connect to the server)#数据库运行时间uptime原创 2015-10-09 15:11:47 · 1110 阅读 · 0 评论 -
nagios监控ESXi硬件
普通的服务器硬件监控我们可以通过nagios+openmanage来实现,但是vsphere环境中的Esxi主机的硬件监控怎么实现呢?这里有两种方案:1.通过nagios插件check_esx来实现,这种方式需要安装vmware vsphere sdk for perl工具包2.通过nagios插件check_esxi_hardware.py来实现,此插件使用python写的。感人原创 2015-05-28 16:15:04 · 3840 阅读 · 0 评论 -
nagios+check_logifiles实现日志监控
日志检查时我们平时用的非常多的一种监控方式,下面我们就来介绍下。检查日志我们需要使用nagios插件,比如nagios自带的check_logfile,功能比较有限,我们使用ConSol Labs出品的check_logfiles,它能够处理截断日志,支持宏定义,支持正则等功能,使我们的监控更加灵活。我们先来安装下:原创 2015-05-13 16:29:46 · 5654 阅读 · 0 评论 -
cacti监控的搭建
目前线上使用的是nagios监控,但是最近有监控交换机流量并且能够图像化监控的需求,虽然nagios能够实现监控但在画图方面无法满足需求,而mrtg画出的图无法满足我们自由查看某个时间段流量的需求;所以我们还是果断使用cacti吧,既能够完美画图,也符合我们日后nagios和cacti整合,以实现更细致的监控,下面就来了解下吧。一.利用yum来安装lamp环境。1.安装mysql-5.6数原创 2015-01-13 16:38:02 · 2545 阅读 · 0 评论 -
nagios windows客户端批处理安装脚本
windows下安装nagios监控客户端NSClient++注:NSCP-原创 2014-05-15 14:54:33 · 1949 阅读 · 0 评论 -
nagios网页监控check_http
最近出现这样一个问题:服务器正常,但是ht原创 2014-05-11 14:04:21 · 3429 阅读 · 0 评论 -
nagios图表pnp安装
#安装pnp,rrdtoolyum -y install rrdtool原创 2014-04-26 10:49:11 · 743 阅读 · 0 评论 -
linux安装nagios中文监控
1.安装相应的软件包原创 2014-06-11 15:05:50 · 2002 阅读 · 0 评论 -
nagios 监控windows客户端
Nagios的插件-NSClient++2012-10-26 10:01:41标签:nagios nsclient++原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://5122542.blog.51cto.com/5112542/1037556NSClient的介绍:NS转载 2014-04-25 10:34:42 · 2342 阅读 · 0 评论 -
mrtg监控交换机路由器流量以及nagios报警
1.交换机开启snmp协议2.安装mrtgyum -y install mrtg3.配置mrtg(1)创建配置文件,若有多个交换机,可对每个交换机创建相应的配置文件mkdir -p /usr/local/mrtgcfgmaker -output=/usr/local/mrtg/switch.cfg public@交换机IP此时生成的switchw.cfg配置文件,记原创 2014-11-29 19:45:48 · 2852 阅读 · 3 评论 -
nagios使用sendEmail实现邮件告警
1.安装sendEmail客户端注:一定要用最新版本1.56,若使用1.55原创 2014-04-26 10:10:30 · 1097 阅读 · 0 评论 -
nagios监控linux客户端
#!/bin/bashuseradd -s /sbin/nulgin nagios##nagios-plugincd /usr/local/srcwget https://nagios-plugins.org/download/nagios-plugins-2.0.tar.gz --no-check-certificatetar -zxvf nagios-plugins-2.0原创 2014-04-23 09:37:38 · 712 阅读 · 0 评论 -
nagios监控heartbeat
heartbeat架好后,我们就需要监控起来喽,下面我们就来了解下怎么监控。首先来了解下几个命令,这几个命令在heartbeat安装后会自动加上,我们的监控脚本就用到这几个命令。[root@usvr-210 libexec]# which cl_status/usr/bin/cl_status[root@usvr-210 libexec]# cl_status listnodes原创 2015-02-01 20:52:11 · 1024 阅读 · 0 评论 -
nagios监控dell服务器硬件
之前讲过利用omsa来监控dell服务器,但是必须通过web来访问,这次我们结合nagios+check_openmanage来实现dell服务器的硬件监控。首先我们来看下面这张图:由上图看出有两种方式可以实现监控:1.nagios服务器端check_nrpe调用被监控端的check_openmanage来实现,这种方式要在被监控端安装omsa和check_openmanage原创 2015-05-04 18:18:29 · 1970 阅读 · 0 评论 -
nagios监控mongodb
1.安装nagios-plugin-mongodb插件cd /usr/local/srcwget https://github.com/mzupan/nagios-plugin-mongodb/archive/master.zipunzip master.zipcd nagios-plugin-mongodb-master/mv check_mongodb.py /usr/local/nag原创 2016-04-29 11:25:12 · 1248 阅读 · 0 评论 -
pycurl+json监控web
利用python的pycurl模块监控web站点,并通过nagios报警。 执行脚本python check_pinggu.py ip port host status_code 其中: ip和port组成proxy host为domain status_code为状态码脚本功能:以json格式post数据到指定的url,并判断状态码 和curl对比: cur原创 2016-05-18 10:22:27 · 1945 阅读 · 0 评论 -
nagios之nsca被动监控
简介 一般情况下我们用nagios主动监控基本就可以实现监控需求,但是随着服务器数量增加,nagios server继续使用主动监控将会不堪重负;另外当我们需要通过第三方的数据采集工具并结合nagios进行报警,就需要用到被动监控。被动监控原理 相比与主动模式中服务器主动去被监控机上轮询获取监控数据的方式,被动模式则是在被监控机上面通过插件或脚本获取监控数据,然后将数据通过send_nsca发往原创 2017-03-17 11:57:07 · 4441 阅读 · 0 评论 -
zabbix利用脚本和lld监控web
zabbix实现对web的监控有两种方式实现,一种是原创 2014-08-11 09:47:32 · 4180 阅读 · 0 评论