
监控告警
文章平均质量分 88
xuliuzai
己欲立而立人 己欲达而达人!
展开
-
监控小点积累
传统的IT运维通常需要人工监测和管理大量的系统日志、性能指标、事件和警报,以确保系统的正常运行和故障的快速解决。通过收集、分析和解读大量运维数据,AIOps能够帮助运维团队深入理解系统运行模式,精准检测异常情况,预测潜在问题,提供智能决策支持。9.数据库是企业IT系统的核心,其性能表现会直接影响整体业务系统的性能表现,而影响数据库性能因素包括:系统架构设计、应用程序业务SQL语句、数据库参数优化配置、数据库运行的资源能力。5.提高故障针对率,全方位,可靠,高效的动态数据与决策优化,进行快速反应。原创 2024-10-17 20:59:13 · 116 阅读 · 0 评论 -
时序数据库--VictoriaMetrics(一)
图片来源--VictoriaMerics学习笔记(1):翻译官方广告 - ahfuzhang - 博客园。原创 2024-10-17 20:58:26 · 1107 阅读 · 0 评论 -
MySQL MHA信息的收集【Filebeat+logstash+MySQL】
product>.*)(\\|\/).*"}】,获取product字段,我们是通过mha的配置文件的名字来定义集群的名字,即规范了mha配置文件的名字的命名来自于集群的名字,反推得知了配置文件的名字,就知道了集群的名字。(2)这些数据,不仅仅是Log,还有些是基础数据,放到MySQL便于相互管理、聚合展示(3)这是数据量并不大,例如mha.log,只有在启动或者failover时才有变化,conf信息也是很少的,所以,从数据量也一点考虑,也不需要保存到MySQL。当然这个文件是被failbeat监控的。原创 2024-10-14 22:18:15 · 734 阅读 · 0 评论 -
MySQL MHA 运行状态监控
增加 panel设置下,就可以了,如下。SQL 语句如下:原创 2024-10-12 23:50:11 · 721 阅读 · 0 评论 -
通过Python收集MySQL MHA 部署及运行状态信息的功能实现
当集团的MySQL数据库实例数达到2000+、MHA集群规模数百个时,对MHA的及时、高效管理是DBA必须面对的一个挑战。MHA 集群 节点信息 和 运行状态 是管理的基础。本篇幅主要介绍如何通过Python实现收集MHA 集群 节点信息 和 运行状态的功能。这些信息将是CMDB信息的重要组成部分。MHA集群数百个,MHA Manager 节点 十几个,一个MHA Manager 节点管理着50-60个集群。原创 2024-10-12 23:48:23 · 965 阅读 · 0 评论 -
SQL Server CPU 利用率毛刺的分析定位与解决
近期发现一台SQL Server的CPU利用率很不稳定,发现不定时的飙升到100%,更可怕的是在业务繁忙时,影响了业务调用,失败率明显增加,所以,减低CPU的利用率,是迫切需要解决的问题。通过常用的SP,很快定位到了SQL语句,是关于一张表的查询,语句简单,但是表的数据量比较大(7600W),查询出的数据有(4000W)。.考虑到,CPU突然飙升,毛刺陡然加剧,冲刺到100%,并且问题SQL 不是最近新上线,所以,我们的第一反映是 索引走偏,了,我们坚持到业务低峰期,重建了表的索引,情况 依然没有好转。原创 2024-10-11 23:04:46 · 1314 阅读 · 0 评论 -
数据库服务器资源使用情况周报
##disk_median_list的格式ResultSet({'('disk', None)': [{'time': '2018-06-21T16:00:00Z', 'median_median': 0.08009824336938143}]})#### _slowqty 的返回格式是字典类型,如下{'count': 2374, '_shards': {'total': 16, 'successful': 16, 'skipped': 0, 'failed': 0}}原创 2024-10-11 23:01:08 · 1078 阅读 · 0 评论 -
通过Python实现对SQL Server 数据文件大小的监控告警
" + "<br><h4>" + mail_body + "</body></html>"告警邮件的功能实现为mssql_alert_dblogsize.py,此份代码的告警阈值设置的为50G,数据来自于视图v_mssql_dblogsize。获取连接串的组件mssql_get_db_connect.py。原创 2024-10-11 22:29:03 · 746 阅读 · 0 评论 -
kapacitor的安装及部分常用命令
Kapacitor 是一个开源框架,用来处理、监控和警告时间序列数据,它使用 TICKscript 脚本来定义任务。Kapacitor是InfluxData开源的数据处理引擎。它可以处理来自InfluxDB的流数据和批处理数据,可以周期性将InfluxDB中的数据汇总、处理后再输出到InfluxDB当中,或者告警(支持Email、HTTP、TCP、 HipChat, OpsGenie, Alerta, Sensu, PagerDuty, Slack等多种方式)。原创 2024-10-11 22:27:14 · 652 阅读 · 0 评论 -
MySQL日志收集之Filebeat和Logstsh的一键安装配置(ELK架构)
关于ELK是什么、做什么用,我们不在此讨论。本文重点在如何实现快速方便地安装logstash和filebeat组件,特别是在近千台DB Server的环境下(为了安全保守,公司DB Server 目前尚未部署saltstack一类的管控软件)。在尽可能标准化的条件下,希望可以实现一键化安装。下面是我们功能实现的一些尝试,我们把手动一步步操作打包提炼到一个sh文档中,安装部署时只要执行sh文件即可。原创 2024-10-10 11:58:23 · 1564 阅读 · 0 评论 -
Elasticsearch通过elasticsearch-curator 插件来定期删除Index
Elasticsearch管理中索引的管理非常重要。基于磁盘空间和性能的考量,索引的生命周期管理显得尤为重要。Curator允许对索引创建、删除等操作,下面是我们借助 elasticsearch-curator 插件来定期删除index.本文主要介绍elasticsearch-curator 插件的安装步骤。原创 2024-10-10 11:49:57 · 571 阅读 · 0 评论 -
企业IT运维
与IT服务管理相关的人员及管理流程,其目的是将具有成本与质量要求的服务交付给用户。由组织的IT部门提供,同时面向组织内、外部用户的一系列流程及服务,其中包括了对硬、软件的管理和运行维护。IT服务全生命周期中的一个阶段,通过对IT服务与IT基础设施进行监控,实现备份恢复与作业调度等活动。----ITILIT运维是指以组织的内、外部用户需求为导向,通过一系列流程、技术、方法,确保为用户提供的IT服务或产品符合一定要求。----《企业IT运维发展白皮书(2019)》中关于IT运维的宏观定义。原创 2024-10-10 11:47:15 · 638 阅读 · 0 评论 -
基于ELK搭建MySQL日志平台的要点和常见错误
数据,让一切有迹可循,让一切有源可溯。ELK是集分布式数据存储、可视化查询和日志解析于一体的日志分析平台。ELK=elasticsearch+Logstash+kibana,三者各司其职,相互配合,共同完成日志的数据处理工作。ELK各组件的主要功能如下:我们在搭建平台时,还借助了filebeat插件。Filebeat是本地文件的日志数据采集器,可监控日志目录或特定日志文件(tail file),并可将数据转发给Elasticsearch或Logstatsh等。本案例的实践,主要通过ELK收集、管理、检索my原创 2024-10-09 18:15:45 · 1113 阅读 · 0 评论 -
shell 操作钉钉机器人实现告警提醒
我们知道,之前的运维告警多通过mail 等方式通知到相应的人员,难以实现随时随地的查看。随着手机APP的发展,很多告警开始发送到IM软件上去。目前比较常用的是发送到微信和钉钉上,今天我们将重点放在钉钉上。群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。借助钉钉机器人,通过官方提供的API,可以很方便的post数据到相应的接收人。群机器人支持Webhook协议的自定义接入,支持更多可能性,例如:你可将运维报警通过自定义机器人聚合到钉钉群实现提醒功能。原创 2024-10-09 17:42:26 · 1157 阅读 · 0 评论 -
以实现MongoDB副本集状态的监控为例,看Telegraf系统中Exec输入插件如何编写部署
既有的Telegraf 关于MongoDB的输入插件很难实现对副本集节点状态的监控,副本集节点状态有 PRIMARY、SECONDARY、RECOVERYING、ARBITER 等。现在我们尝试通过来实现对MongoDB状态的的监控。原创 2024-10-08 14:29:03 · 1069 阅读 · 0 评论 -
SQL Server Alwayson架构下 服务器 各虚拟IP漂移监控告警的功能实现 -1(服务器视角)
EXEC sys.sp_addextendedproperty @name=N'MS_Description', @value=N'创建时间' , @level0type=N'SCHEMA',@level0name=N'dbo', @level1type=N'TABLE',@level1name=N'DBA_ServerIPDataBase_OverCheck', @level2type=N'COLUMN',@level2name=N'CreateTime'<br><br><table>'原创 2024-10-06 14:09:27 · 652 阅读 · 0 评论 -
通过 Telegraf + InfluxDB + Grafana 快速搭建监控体系的详细步骤
InfluxDB是一款优秀的时间序列数据库,适合存储设备性能、日志、物联网传感器等带有时间戳的数据,可以轻松处理高写入和高查询负载(数据采集与数据可视化非常常见的场景)。influxdb函数分为聚合函数,选择函数,转换函数,预测函数等。1、展示方式:快速灵活的客户端图表,面板插件有许多不同方式的可视化指标和日志,官方库中具有丰富的仪表盘插件,比如热图、折线图、图表等多种展示方式;Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。原创 2024-10-06 12:49:05 · 1201 阅读 · 0 评论 -
SQL Server Alwayson架构下 服务器 各虚拟IP漂移监控告警的功能实现 -2(虚拟IP视角)
EXEC sys.sp_addextendedproperty @name=N'MS_Description', @value=N'IP地址' , @level0type=N'SCHEMA',@level0name=N'dbo', @level1type=N'TABLE',@level1name=N'DBA_ServerIPDataBase_OverCheck', @level2type=N'COLUMN',@level2name=N'ServerIP'这个功能的实现依赖上一节的功能和数据。原创 2024-10-06 12:45:35 · 856 阅读 · 0 评论 -
搭建 Telegraf + InfluxDB + Grafana 监控遇到几个小问题
sed -i 's/\# urls = \[\"example.org\"\]/ urls = \[\"指定域名或IP\"\]/' /etc/telegraf/telegraf.conf。用\转义: 把\字符放在特殊字符的前面,例如将##[[inputs.ping]] 替换为[[inputs.ping]]### step 3 ping 命令指定特定域名 ,即将文件中的# urls = ["example.org"] 替换为 urls = ["指定域名"],我们可以调整代理程序执行频率;(例如,添加25);原创 2024-10-06 12:44:43 · 1297 阅读 · 0 评论 -
InfluxDB因修改默认数据目录导致服务无法正常运行的问题(权限问题)
在实际的生产中,考虑的实际情况,我们会调整一些默认配置,例如,数据目录。InfluxDB修改默认的Data目录后,因权限问题,服务无法正常运行。以下是具体的分析测试过程。启动influxdb后,查看服务运行状态 提示错误,influxDB端口也没有启动成功,说明服务没有启动成功。说明,默认安装不修改存放路径,其自动生成的文档,确实文档拥有者为influxdb。去/var/log/messages 下面查询错误log。可以判断得知,这个服务是使用 influxdb账号来启动管理的。正常启动,没有报错。原创 2024-10-06 12:43:02 · 395 阅读 · 0 评论 -
通过官网模板轻松实现Grafana的可视化界面配置(以MySQL监控项为例)
我们知道可视化是监控的一个重要环节,所以往往我们这个环节花费大量的时间和精力。Grafana 有着非常漂亮的图表和布局展示,功能齐全的度量仪表盘和图形编辑器。测试验证的基础是已成功安装 Telegraf、InfluxDB、Grafana,并且Telegraf已配置了mysql的输入插件(即开始监控收集MySQL的相关数据)。你可能会碰到另外一个问题,就是grafana服务器没有办法上外网,上述获取模板的办法就不行了。(但需要注意,部分导入的模板可能不是很准确,例如 可能选择的DataSource不生效等)原创 2024-10-06 12:42:14 · 504 阅读 · 0 评论 -
PMM Client 安装异常报错
组件收集关于一般系统和数据库性能的各种数据,并将该数据发送到相应的PMM服务器组件。安装PMM Client之后,它不会自动连接到PMM Server。一般使用root用户访问安装PMM Client(以具有root权限的用户身份登录或能够运行命令的sudo权限)。如果还要继续安装,那就需要转变一个思路,不在使用yum 安装,而是先下载,再install。注意,如果PMM Server更改了默认端口80 ,请在服务器的IP地址之后指定。如果成功执行,也说明了 PMM Client 已成功安装。原创 2024-10-01 00:21:49 · 701 阅读 · 0 评论