随着数字化和智能化技术的涌现与发展,数字生产力正逐渐成为推动经济发展和社会进步的重要引擎。人工智能场景落地效果的重大突破,尤其是以ChatGPT为代表的大语言模型的出现,彰显了AI技术能够在更多领域场景中普及,并将引发令人瞩目的行业变革。在运维行业中,大语言模型亦有广阔的应用空间,但如何将大语言模型和运维场景有效结合,以实现为运维工作创造价值仍然是一个行业普遍探索的问题。
本文内容来自清华大学计算机系长聘副教授裴丹在CCF国际AIOps挑战赛宣讲会暨AIOps研讨会,及其他运维领域前沿研讨会议上,关于《运维大模型展望》的演讲。
2023 CCF国际AIOps挑战赛火热报名中(AIOps挑战赛火热报名中,26万奖金池等你来瓜分!)
运维行业有其独特的特点。以某银行IT系统架构为例,如果将数据中心中的每个组件视为一个节点,并将它们连接成一个知识图谱,大约有400多万个节点和几千万条边,每个节点都有自己的监控数据,而且这些数据是多模态的。例如,最常见的可观测性数据是指标、日志、调用关系等数据,这些数据间的关系非常复杂,而且需要深厚的领域知识才能理解。作为运维人员,我们需要了解IT架构、数据中心运作方式以及软件工程的架构,才能做好运维工作。因此,领域知识对我们来说非常重要。同时,运维的场景也非常丰富,涉及到故障、质量、安全、效率和性能等多个方面。总之,运维领域是一个非常复杂的庞大场景,这是运维行业的特点。
关于运维大模型,我们先举个例子(上图)
运维大模型与我们过去使用的自动化运维、智能运维以及其他运维工具之间存在很强的互补关系。大模型出现之前,我们需要手动操作,并将新工具交付相应的用户,告诉他们如何使用。现在通过大模型,我们可以以对话形式操作。
如当告警发生,我们想查看它的根因并诊断时,我们可以如此操作:1、直接与大模型对话,提供一个告警ID,大模型调用出后台的根因诊断工具;2、诊断工具调用完成后给出一个结果,给出根因并提供一个链接,以解释这个结果是如何得出的。
实际上,该诊断工具的原理就是基于一个诊断图,根据该图推断出最有可能的几个原因。这个工具也有自己的展示界面。从这例子可以看出,通过最基本的人机对话功能,可以增强与现有任何一种工具(这个例子中是根因诊断工具)的输入输出交互。
以上这些是完全可以实现的,而大模型的应用不止于此。
在“运维大模型领域”,很可能会面临以下问题:
运维大模型的概念是什么?
与大语言模型的关系是什么?
是不是“通用大语言模型+提示/外挂文档”就足够了?
与AIOps、自动化运维工具的关系是什么,如何融合对接?
面对百花齐放、日新月异的开源大语言模型,如何选取大语言模型底座、模型规