指标采集能力也是一种运维经验

本文讨论了在智能化运维中,准确、全面的指标采集至关重要。尽管异常检测算法强大,但在生产环境中,数据质量、频率和完整性直接影响运维效果。作者强调了进程状态监控,特别是高风险的D状态,以及数据梳理和指标体系建设的重要性,指出快速建立平台而忽视数据质量的短期行为不可取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前几天和一个做智能化运维的朋友聊起运维经验的话题,我说指标采集也是一种运维经验,只有指标采集的准确了,完整了,运维自动化系统才能做好。当时他觉得不太认同我的观点,他们做项目都是到用户那边,看用户采集了哪些数据,基于用户采集的数据,采用智能化的算法去分析这些数据,帮用户提升运维监控、故障预警、故障溯源的水平。无论用户采集的系统运行数据的质量高低、数量多少,他们都能很好的帮助用户构建智能化分析与预警的平台。朋友的公司是专攻异常检测算法的,算法能力在国内同行里属于佼佼者,智能化运维平台软件也较为完善。他们的观点是无论数据是什么样的,他们都有一套通用的方法,可以帮用户构建智能化运维能力。

听起来确实不错,不过好像哪里有些不太对劲。当我们的交流更为深入的时候,发现了一个问题,就是他们在很多用户那边做POC的时候,往往效果还是不错,但是实际生产环境中的效果比POC往往要差一些。为什么会这样呢?因为POC时他们拿到的数据往往都是用户系统出现问题时的数据,故障特征比较明显,所以哪怕数据质量不是很高,也能有比较好的效果,而同样的算法,在故障特征没有那么明显的生产环境中,效果就不尽如人意了。

事实上,如何高效、低影响、无风险、低开销、高密度的采集IT系统的运行状态指标数据对于运维自动化与智能化运维来说都是十分关键的。我们可以把IT系统看作是一个池塘,不断地会有一些小石头被扔到里面,激起或大或小地涟漪。如果一下子扔进去一块大石头,马上就能激起巨大地浪花,这时候系统就出问题了,直到水波平息,整个池塘才会恢复平静。而大多数时候,并没有那么大地石头出现,常态化状态是同时会有大量的小石头被扔进池塘,各自产生一片波纹。偶尔有些波纹会相交,交点处会产生一个更大的波纹,再往外扩散。有经验的人经过长时间观察发现,当某几个小波纹发生相交的时候,激起大浪的机会就很大。于是他根据经验就能对这种状态的出现进行预警,这就是运维经验告警。而当我们没有这个运维经验的时候,我们总是在监控那种大石头激起的浪花,那几种小石头在我们监控之外,那么想要发现这种异常,有再好的算法都是没用的。

我的观点是,无论是运维自动化还是智能化运维,都必须是基于数据的,昨天的文章里我最后说了“先有数字化,再有智能化”的观点,也是这个意思。如果一个智能化运维的团队没有办法掌握足够的会影响系统的数据,那么算法再牛逼,也是白搭。不幸的是,无论是我们的智能化运维厂商还是用户自身,对这一点的理解都很不够。我遇到的大多数用户的观点是,数据质量好坏不影响智能化运维平台的建设,那种必须有高质量数据才能分析的思想在大数据时代已经过时了,算法可以弥补数据的不足。实际上这是对大数据的误解,如果影响系统健康的重要要素都没有被纳入监管,那么你怎么就能保证通过算法就能找到系统的问题呢?

最后举个指标的例子,对于IT系统的健康来说,进程状态监控是大家容易忽视的,不过一旦进程状态出现一些异常,整个操作系统都会处于不正常状态,数据库、中间件等出现故障的几率很高。因此进程状态监控对于运维自动化系统来说十分关键。

上图是维基百科对进程状态的定义。对于进程状态来说,有些状态其实是高风险状态,如果有些状态出现的时候,是高风险的。这种风险一旦出现,百分之百会引起系统的问题。比如当“D”状态的进程比较多的时候,往往是系统出现了大问题,而且这些进程是无法通过kill -9杀死的。大多数D状态的进程是等待IO,一般是短时间的等待,如果出现了长时间处于D状态的进程,那么系统肯定存在某些问题,如果这种进程的数量不断增长,系统存在更大的风险,有可能需要重启OS才能恢复。

在上面的例子中,这些处于 Ds 状态的进程都是在等待 IO ,而且是瞬间出现的。我们的 2 分钟采样周期的监控平台并未能够随时捕获到这些状态。

在我们遇到的 D 状态进程问题往往是一些比较隐蔽的 IO 问题导致的,在 IO 问题爆发前, D 状态进程数量会缓慢增长,等到大一定数量的时候,其他的 OS 监控命令也能发现问题了,不过这种发现有时候就太晚了。

还有一种情况是,你的某块磁盘出现问题了,只有访问这块盘的系统才偶尔会 HANG 住,大部分的 IO 指标并不会受到影响,此时有可能你的其他监控指标中是无法发现问题的,而系统中 D 状态的进程越来越多,占用了大量的系统资源,而我们并不知晓。

我想上面的例子已经足以证明指标的重要性了吧。不过要想做好指标采集,是需要大量的专家介入的,需要对企业运行经验进行梳理与提炼,才能构建出高质量的指标体系。而完善与丰富的指标体系,会让企业 IT 运维上一个台阶。不过指标梳理是一个十分艰苦,而且不能马上看到成效的工作,因此往往在很多企业里,大家都不愿意做这件事。甚至我遇到一个建设智能化运维平台的企业,领导认为先把平台建起了,数据的事情太难,以后慢慢做吧。这种只要面子,不管里子的做法,在我们的现实世界中,真的是太常见了。

作者:白鳝

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值