清华裴丹 | 运维大模型展望-上篇

BizSeer必示科技

已于 2023-08-21 19:05:49 修改

阅读量1.4k

点赞数 2

文章标签：运维

于 2023-08-21 18:53:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_52705010/article/details/132410808

版权

文章探讨了随着人工智能发展，大语言模型在运维领域的应用潜力，尤其是在AIOps背景下，如何将大语言模型与运维场景相结合，以解决复杂多模态数据的问题，并提出了运维大模型的概念、挑战和未来发展方向，强调了预训练和知识图谱在提升模型性能和解释性中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着数字化和智能化技术的涌现与发展，数字生产力正逐渐成为推动经济发展和社会进步的重要引擎。人工智能场景落地效果的重大突破，尤其是以ChatGPT为代表的大语言模型的出现，彰显了AI技术能够在更多领域场景中普及，并将引发令人瞩目的行业变革。在运维行业中，大语言模型亦有广阔的应用空间，但如何将大语言模型和运维场景有效结合，以实现为运维工作创造价值仍然是一个行业普遍探索的问题。

在这里插入图片描述

本文内容来自清华大学计算机系长聘副教授裴丹在CCF国际AIOps挑战赛宣讲会暨AIOps研讨会，及其他运维领域前沿研讨会议上，关于《运维大模型展望》的演讲。

2023 CCF国际AIOps挑战赛火热报名中（AIOps挑战赛火热报名中，26万奖金池等你来瓜分！）

在这里插入图片描述

运维行业有其独特的特点。以某银行IT系统架构为例，如果将数据中心中的每个组件视为一个节点，并将它们连接成一个知识图谱，大约有400多万个节点和几千万条边，每个节点都有自己的监控数据，而且这些数据是多模态的。例如，最常见的可观测性数据是指标、日志、调用关系等数据，这些数据间的关系非常复杂，而且需要深厚的领域知识才能理解。作为运维人员，我们需要了解IT架构、数据中心运作方式以及软件工程的架构，才能做好运维工作。因此，领域知识对我们来说非常重要。同时，运维的场景也非常丰富，涉及到故障、质量、安全、效率和性能等多个方面。总之，运维领域是一个非常复杂的庞大场景，这是运维行业的特点。

关于运维大模型，我们先举个例子（上图）

运维大模型与我们过去使用的自动化运维、智能运维以及其他运维工具之间存在很强的互补关系。大模型出现之前，我们需要手动操作，并将新工具交付相应的用户，告诉他们如何使用。现在通过大模型，我们可以以对话形式操作。

如当告警发生，我们想查看它的根因并诊断时，我们可以如此操作：1、直接与大模型对话，提供一个告警ID，大模型调用出后台的根因诊断工具；2、诊断工具调用完成后给出一个结果，给出根因并提供一个链接，以解释这个结果是如何得出的。

实际上，该诊断工具的原理就是基于一个诊断图，根据该图推断出最有可能的几个原因。这个工具也有自己的展示界面。从这例子可以看出，通过最基本的人机对话功能，可以增强与现有任何一种工具（这个例子中是根因诊断工具）的输入输出交互。

以上这些是完全可以实现的，而大模型的应用不止于此。

在“运维大模型领域”，很可能会面临以下问题：

运维大模型的概念是什么？
与大语言模型的关系是什么？
是不是“通用大语言模型+提示/外挂文档”就足够了？
与AIOps、自动化运维工具的关系是什么，如何融合对接？
面对百花齐放、日新月异的开源大语言模型，如何选取大语言模型底座、模型规