算法落地思考:如何让智能运维更智能

本文探讨了智能运维的现状,分析了算法落地时的问题,如指标异常检测的误报过多、日志分析的反馈机制缺失等。智能运维三要素包括算法设计、运维场景理解和平台工程化能力。文章提出了异常检测、告警精细化管理和数据探索工具的探索工作,旨在让智能运维更加高效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

嘉宾 | 王鹏   整理人 | 西狩xs

出品 | 优快云云原生

AIOps是人工智能与运维的结合,能够基于已有的运维数据,利用人工智能算法,通过机器学习的方式帮助企业提升运维效率,解决自动化运维无法管理的问题。

2022年8月30日,在优快云云原生系列在线峰会第16期“AIOps峰会”上,复旦大学计算机科学技术学院教授、擎创科技首席数据科学家王鹏深入阐述了智能运维的现状,全面分析了智能运维在算法落地时遇到的问题,分享了他在智能运维方向中算法落地的探索与尝试。

智能运维的现状

当前有众多学者对智能问答系统进行研究,提出了诸多算法和技术,在Google Scholar中,与智能问答系统相关的词条高达35万,但智能问答系统在实际生活中的效果却差强人意,并不是真正的“智能”。

近些年来,智能运维算法一直在快速地发展迭代,随着智能运维研究成果和应用场景的不断落地,算法效果也在不断提升。

指标异常检测

指标异常检测是当前落地最多的智能运维场景,该场景下数据容易准备、效果容易验证。对某个指标的某个时间序列进行标注后,很容易看出哪些异常没有被捕获,以及捕获了哪些不应该捕获的异常。

针对指标的异常检测,研究者们提出了大量异常检测算法,包括单指标异常算法、多指标的异常检测算法、基于统计或深度学习的异常检测算法以及有监督、无监督的异常检测算法。

但在实际落地过程中,指标异常检测的效果往往不尽如人意。主要问题如下:

1、误报太多

  • 阈值设置紧,为了消除漏报,造成了大量的误报;
  • 异常数量多,运维人员难处理,不得不忽略所有的指标异常告警。

2、模型/参数难以设置

  • 不同类型的指标,其波动情况、周期性、变化情况不同,所适合的模型和参数也不同;
  • 无法单独为指标设置模型和参数。

3、缺乏有效的反馈和修正机制

  • ​​​​​缺乏问题发现能力,难以对指标异常进行类型、主机、时间段等方面的展示和分析,难以对异常进行交互式探索,无法判断异常是否应该报告;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值