现代组织通过工单系统、事件报告、服务请求、支持升级等产生大量的运营数据。这些工单通常包含有关系统性故障、重复出现的问题和团队绩效的关键信号。但从它们中提取洞见是一项挑战。
大多数工单平台是为工作流执行而构建的,并非用于分析。结构化字段不一致,自由文本描述杂乱,工单之间的关联关系很少被捕获或可查询。
因此,当领导层询问…
“我们组织内最常见的重复性问题是什么?”
“哪些团队反复处理相同的根本原因?”
“为什么某些组解决工单的速度比其他组快或慢?”
“我们在哪些方面看到了解决质量或一致性的差距?”
…您只能拼凑脆弱的查询、导出或电子表格——如果您尝试的话。
ITelligence 是某机构内部IT组织构建的内部AI智能体,它结合了NVIDIA Nemotron开放模型的高级AI推理能力和图形数据库的表达能力。该智能体的目的有两个:1) 通过有效利用LLM生成上下文洞见,揭示非结构化支持工单数据中隐藏的见解;2) 使用基于图形的查询来追踪关系、识别异常并大规模发现模式。
这篇博客文章旨在分享我们的经验,并为其他组织构建类似的、强大的AI驱动智能体提供实用指南。
虽然所描述的实施方案侧重于IT运营,但所提出的架构和工作流程是领域无关的,可以应用于任何基于工单的环境,这些环境需要将非结构化记录转化为结构化洞见——包括安全事件响应、客户支持平台或设施管理系统。
构建基础
系统的核心是一个模块化、可扩展的数据管道,用于摄取、丰富和分析运营数据,以支持根本原因和洞见生成。该架构由以下关键阶段组成:
1. 数据摄取与图形建模
可以使用预定的提取、转换、加载作业从多个企业系统中提取数据,包括IT服务管理平台、端点资产清单和身份源。我们选择了基于批处理的方法,而不是使用流平台或事件驱动的摄取。这一决定是基于我们的用例可以容忍最终一致性。实时摄取对于我们的分析并非必需,定期ETL作业提供了一个更简单、更易于维护的解决方案,这与我们的运营需求非常契合。
每个数据流都被规范化并加载到图形数据库中,其中实体被建模为节点,它们的关联被建模为关系。这种图形表示支持灵活的多跳查询,这在传统的关系型或扁平报告结构中实现起来成本高昂或非常复杂。
2. 上下文增强作业
为了用更丰富的上下文增强每个工单,可以运行增强作业,在工单生成时将辅助属性与用户和设备关联起来。示例包括:
- 工单发起者是否为新员工
- 设备类型
- 工作模式
- 雇佣类型
- 基于源标识符或请求来源判断是用户创建还是机器人生成
这些增强可以为图形增加语义深度,并使下游分析能够按相关维度细分数据,而无需依赖用户填写的字段。
3. 根本原因分析作业
确定真正的根本原因通常超出了标准ITSM分类的能力。为了解决这个问题,我们可以调用一个LLM管道,单独处理每个工单。对于每个工单,我们可以传入:
- 用户报告的问题
- IT人员的解决备注
- 任何已增强的元数据
然后,我们可以提示LLM提取一个简洁的、以逗号分隔的根本原因关键词列表,代表问题的真实本质。这些生成的RCA可以作为新属性存储在工单节点上,从而能够实现超越传统ITSM类别的精确分组和分析。
我们为此目的测试了通过NVIDIA NIM提供的不同开源模型,使用llama-3_3-70b-instruct获得了最准确的结果。
4. 洞见生成作业
一旦工单通过结构化的RCA得到增强,我们就可以运行预定的洞见生成作业,使用LLM综合组织或团队级别的模式。这些作业可以针对不同的洞见类型进行提示工程:
- 平均解决时间洞见:系统可以选择解决时间最长的工单,并提示LLM总结这些案例耗时长的原因——突出延迟、错误路由、依赖关系或标准操作程序中的差距。
- 客户满意度洞见:对于客户满意度得分低或用户反馈差的工单,可以生成执行级摘要,突出未满足的期望、重复的投诉以及潜在的改进领域——按团队或组织分组。
- RCA洞见:选择最频繁出现的根本原因的工单。可以提示LLM提取这些工单中的常见症状、重复的解决步骤和高级别模式——使团队能够识别潜在的系统性问题。
- 新员工洞见:分析新员工打开的工单,以发现入职痛点和早期困难,向领导者提供关于差距和改进领域的清晰、可操作的反馈。
这些洞见可以关联回图形上下文,以提供针对每个领导者、团队或服务所有者的、可操作的情报。
5. 分布式警报和自动化洞见交付
为了使洞见可操作化,我们可以构建一个分布式警报系统,持续评估图形中的KPI趋势。预定义的规则可以在指标偏离预期阈值时触发通知——例如,平均解决时间激增、RCA重复出现或客户满意度下降。这些警报可以直接发送给相关的领导者或经理,并提供上下文、受影响的工单和建议的关注领域。
该框架还可用于定期交付自动生成的、AI生成的通讯简报。每份简报可以根据组织或经理进行定制,并可以包括:
- 最主要的RCA和重复模式
- 影响平均解决时间等关键绩效指标的高影响工单
- 来自低客户满意度案例的用户反馈摘要
- 周度KPI趋势
所有洞见都是LLM使用结构化提示和增强的工单数据生成的,确保每个利益相关者都能自动收到有针对性的、上下文感知的摘要。
这种以清晰的图形建模和精确的提示工程为基础的分层架构,使系统能够扩展洞见生成,同时保持对新数据源、组织结构和用例的适应性。
设计直观的AI驱动界面
由于一个丰富、高度连接的数据集为系统提供支持——涵盖工单、用户、根本原因、组织层次结构、设备等——数据检索需要既强大又易于访问。用户不应该需要理解底层的图形模式、编写Cypher查询或依赖自定义脚本来探索运营洞见。
我们需要一个界面,能够:
- 允许用户按有意义的维度切片和过滤数据
- 支持结构化查询和按需摘要
- 对没有深厚技术专长的分析师和经理来说足够直观
- 减少歧义并提高在解释用户意图时的准确性
这引导我们评估两种界面范式:对话式聊天机器人 和 交互式仪表板。
考虑到数据模型的复杂性以及在解释用户意图时需要精确性,我们有意选择了后者——交互式仪表板——作为平台界面的基础。它提供了一种清晰、可靠且用户友好的方式来导航和从高度结构化的图形中提取洞见。
为什么不用基于RAG的聊天机器人?
鉴于最近围绕RAG和对话式AI的势头,很自然会问:为什么不直接在图形上构建一个聊天机器人界面?
虽然这个想法很吸引人,但我们认为它在实践中存在不足,尤其是在处理丰富且高度关联的模式时。
在这种情况下,底层数据库包含许多互连的实体和属性:工单、用户、设备、层次结构、根本原因、团队、服务、分配组等。将开放式的自然语言查询转换为精确的、可执行的图形查询不仅不简单,而且容易出错且经常存在歧义。
我们的目标是提高用户工作效率,而不是让用户在聊天机器人界面中来回交互以澄清其意图。当用户需要答案时,他们应该快速准确地获得答案,而无需猜测如何措辞问题才能让系统理解。
推荐方法:具有按需摘要功能的AI驱动仪表板
为了使洞见既易于访问又具有交互性,我们建议与交互式数据可视化平台集成,该平台由图形数据库和自定义摘要API服务提供支持。所有静态数据,如指标、KPI、预生成的洞见、工单及其元数据,都可以实时从图形中直接提取。
然而,一个手动操作的领域仍然存在:即使用户按标准筛选工单,他们仍需要手动查看单个工单以发现常见的痛点和解
决模式。这使得分析缓慢且难以确定系统性改进的优先级。
为了自动化此工作流程,我们可以引入一个直接连接到仪表板的摘要服务API。当用户选择筛选条件时,这些变量可以作为JSON有效负载通过绑定到文本面板的数据源发送到摘要服务API。
在后端,摘要服务可以:
- 接收选定的标准
- 从图形中检索匹配的工单
- 将它们注入到结构化提示中
- 将提示发送到某中心的NIM API,用于基于LLM的摘要生成
- 将响应返回到数据可视化平台进行显示
然后,输出可以在AI生成的摘要面板中呈现,提供一个简洁的执行摘要,包括:
- 常见问题和症状
- 典型的解决路径
- 重复出现的故障模式
- AI生成的建议
这消除了手动工单分类的需要,并从仪表板直接为团队提供按需的、上下文相关的理解。
了解更多
这个AI智能体旨在弥补IT工单运营中的一个关键差距:从大量非结构化工单数据中获取有意义洞见的挑战。通过集成AI驱动的分析、基于图形的建模和灵活的查询,该平台将运营噪音转化为清晰、可操作的情报。
从自动化的根本原因识别和丰富的上下文增强,到实时的执行摘要和主动警报,该智能体可以赋予团队做出明智决策所需的清晰度和速度。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1099

被折叠的 条评论
为什么被折叠?



