昨晚跟浙江移动晓征总畅谈很久,从狭义AIOps做根因分析引出,聊了AIOps的作用,跟SRE的关系,实践的总结,有很多共鸣,也碰撞出很多有意思的观点。
结合晓征总整理的,和我记录的,形成一篇文章,算是抛砖引玉,在AIOps经历了几年实践的基础上,再次探讨下AIOps这个话题。
以下是正文:
和兄弟们和以及江湖上的专家研讨了一番,居然哭笑不得地得出一个初步结论,抛抛砖:狭义上的AIOps存在严重泡沫。
几个观点:
第一、靠AIOps做根因定位靠不靠谱?
AI无论基于机器学习还是深度学习,都依赖于大量的数据。但运维场景往往需要从一次故障中汲取改进的力量,而这个是典型的小数据量建模,需要大量的常识、经验,需要用到归纳和演绎能力,而这些恰恰是人类的优势,现阶段的AI还难以支撑。
所以,实践中,在故障时,再依赖什么AIOps做根因定位,实践中没有成功过。原因也不难理解,因为每次故障的原因,都会跟之前不同,让AI去识别一个从来没见过的故障,也基本不太可能。
举个例子,如果让AI从图片中识别出一只猫?但是你从来没有给AI算法足够的猫的图片样本去学习,怎么能让AI知道什么是猫?
故障时的原因也是如此,如果遇到一个从来没触发过的因素,这时靠AI在这么复杂

本文从与浙江移动的讨论出发,分析了AIOps在根因定位上的局限性,提出AIOps更适用于故障感知和预测。AIOps、DevOps与SRE的关系被阐述为AI发现问题,SRE通过Ops和Dev手段解决。同时指出,运维工作仍需要具备经验和技术的新型SRE,而非完全被机器替代。
最低0.47元/天 解锁文章
444

被折叠的 条评论
为什么被折叠?



