AI 支持的系统管理中的异常检测与自动化级别
1. 引言
随着系统复杂度不断提升,人类操作员若没有额外支持和自动化手段,已难以全面管理系统。然而,许多数据驱动和自主应用都要求服务持续且具备有保障的延迟和响应时间。因此,系统停机和组件故障可能会产生严重影响。
另一方面,基础设施各层的软件定义技术带来了新的控制可能,不仅能管理服务器,还能控制前端设备和通信路径。这种优化潜力可提升整个系统的可靠性和稳定性。
大型服务提供商已意识到对可靠服务的需求,通过引入网络和站点可靠性工程师、部署 24/7 监控工具以及 AIOps 平台(用于负载平衡、容量规划、资源利用、存储管理和威胁检测等),在可靠性、可维护性和可用性方面取得了显著进展。但在系统出现性能问题、组件故障或安全事件时,还需进一步缩短系统管理员的响应时间。
系统运行超出正常参数范围时就会出现异常,这些异常必须在导致组件或系统故障前被识别和修复。有些异常(如组件停机和服务中断)较易检测和处理,但像 CPU 压力过大、内存或存储空间泄漏、网络延迟增加等复杂故障则更难发现,且若不及时处理,可能会导致服务中断。近年来,人们投入大量精力开发和部署先进机制,以加速监控、数据分析、根因分析和修复过程。
2. 背景
AI 支持的 IT 基础设施管理自动化规则有助于 IT 操作员探讨 AIOps 范式。1978 年,Sheridan 和 Verplank 提出了水下远程操作员的自主操作规则和级别,共包含 10 个级别:
- 级别 1:操作员定义任务,计算机执行。
- 级别 2:计算机协助确定选项。
- 级别 3:计算机确定并建议选项,操作员可修改建议。