IT 运维告警现状
目前 IT 运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些规则,通过将实时监控的数据与规则进行对比,当某个指标监控值不符合设定的规则时,则判定为异常的状况,这样的话就会发送对应的告警到告警平台。告警平台收到通知后,会分配给对应的运维人员进行处理,运维人员去根据告警信息来排查,最终定位故障的根本原因,并对故障进行修复。从这个流程可以看出,整个过程是以告警为中心,所以告警的质量是至关重要的。
但在实际运维过程中,我们可以发现这个过程中其实存在很多问题。首先,监控系统的规则难以设定。因为规则是基于专家经验设定的,随着系统规模变大,复杂度提高,监控覆盖的完善,监控指标数量指数性增加,指标形态千变万化,基于专家经验的规则设定力不从心,误报率、漏报率居高不下。运维人员可能会遭遇告警风暴,每天被数千个告警轰炸,难以应付。故障发生后,对若干个告警逐一排查找故障根因,效率极低,大大增加故障的恢复时间。故障有可能无法预知,有些本来可以避免的故障还是发生了。
智能化告警的理念和相关技术
为了解决上述问题,在智能运维领域,智能化告警的概念出现了。智能化告警主要解决 4 个问题:一、精准告警,拒绝告警风暴;二、快速故障定位;三、进行故障预测,避免故障发生;四、规则设置自动化,不再通过人工经验来设置规则。
智能异常检测的核心理念是利用机器学习算法,对历史数据的规律自动学习,从而实现规则设置自动化。这样的话,就不再需要人工设置大量的规则,绝大部分情