嘉宾 | 王鹏 整理人 | 西狩xs
出品 | 优快云云原生
AIOps是人工智能与运维的结合,能够基于已有的运维数据,利用人工智能算法,通过机器学习的方式帮助企业提升运维效率,解决自动化运维无法管理的问题。
2022年8月30日,在优快云云原生系列在线峰会第16期“AIOps峰会”上,复旦大学计算机科学技术学院教授、擎创科技首席数据科学家王鹏深入阐述了智能运维的现状,全面分析了智能运维在算法落地时遇到的问题,分享了他在智能运维方向中算法落地的探索与尝试。
智能运维的现状
当前有众多学者对智能问答系统进行研究,提出了诸多算法和技术,在Google Scholar中,与智能问答系统相关的词条高达35万,但智能问答系统在实际生活中的效果却差强人意,并不是真正的“智能”。
近些年来,智能运维算法一直在快速地发展迭代,随着智能运维研究成果和应用场景的不断落地,算法效果也在不断提升。
指标异常检测
指标异常检测是当前落地最多的智能运维场景,该场景下数据容易准备、效果容易验证。对某个指标的某个时间序列进行标注后,很容易看出哪些异常没有被捕获,以及捕获了哪些不应该捕获的异常。
针对指标的异常检测,研究者们提出了大量异常检测算法,包括单指标异常算法、多指标的异常检测算法、基于统计或深度学习的异常检测算法以及有监督、无监督的异常检测算法。
但在实际落地过程中,指标异常检测的效果往往不尽如人意。主要问题如下:
1、误报太多
- 阈值设置紧,为了消除漏报,造成了大量的误报;
- 异常数量多,运维人员难处理,不得不忽略所有的指标异常告警。
2、模型/参数难以设置
- 不同类型的指标,其波动情况、周期性、变化情况不同,所适合的模型和参数也不同;
- 无法单独为指标设置模型和参数。
3、缺乏有效的反馈和修正机制
- 缺乏问题发现能力,难以对指标异常进行类型、主机、时间段等方面的展示和分析,难以对异常进行交互式探索,无法判断异常是否应该报告;