AIOps 项目中的隐蔽工程,这 5 个问题你注意了吗?

AIOps通过运用人工智能技术提升运维效率和可靠性,其核心在于数据的质量。文章强调了数据的新鲜度、分布、体量、模式和血缘五个关键指标,这些都是AIOps隐蔽工程的组成部分。当这些方面出现问题时,可能导致AIOps系统失去效用。通过监控这些指标,可以确保AIOps系统的健康运行,为实现智能运维奠定基础。

做过房屋装修的人都知道,隐蔽工程的重要性,水电线路这种事情,后续一旦出现问题,造成的后果和维修的成本都是非常高的。 AIOps 是将人工智能的技术应用于运维领域,基于已有的[运维数据的可观察性],如日志(Logs)、监控(Metrics)、链路(Tracing)等,借助大数据技术和机器学习、深度学习等算法来提升系统运行的可靠性和效率。 AIOps 的实施就像是对运维系统进行一次装修一样,一定要重视其中隐蔽工程的建设与验收。

AIOps 中的隐蔽工程

类比于装修中的隐蔽工程中走的是水、电、煤气, AIOps 项目中的隐蔽工程中流淌的就是运维领域的三大支柱数据:日志数据、监控数据和链路数据。 水、电、煤气出了问题,就算家里有再漂亮的装饰也生活不好。 同样的,AIOps 系统中的数据出现问题,AIOps 就失去了灵魂。

那么,这么至关重要的隐蔽工程为什么会发生问题呢? 我发现这其中的原因主要有三个: 其一,数据源越来越多样;其二,数据管道越来越复杂;其三,数据团队分工越来越细。 先说数据源,虽然离不了日志、指标、链路这三大类,但是随着系统结构的不断更新、业务的演进、云化、容器化等新架构的出现,使得原本的数据源中的任何一个都可能出现意想不到的变化,例如日志格式变了、输出方式变了等等都越来越常见。 再说数据管道,数据集的多样性和易变性必然导致数据管线的日益复杂。可以想见,拥有越来越多的处理阶段和依赖关系的可见性降低,对后续依赖的数据资产正确性和算法效果的灾难性影响。 最后,越来越多的数据分析师、工程师、科学家来分别构建和维护数据管道、数据分析和算法模型等,他们之间的能力的差异、沟通不畅或者协调不够充分往往是不可避免的,这将导致复杂的系统随时间的推移而破碎。

好,那现在我们怎么办? 就像装修工程中的监理公司做的一样,我们需要密切关注 AIOps 工程实施中隐蔽工程出现问题的 5 个表征:

问题 1: 数据新鲜度:数据是最近的吗?

数据管道可能会因为无数不同的原因而中断,但其中的罪魁祸首是新鲜度问题。新鲜度是指 “我的数据是最新的吗?最新的数据是什么时候的?当数据没有更新的时候,是否有时间上的空白,以及这对我有什么影响?” 等诸多问题。 如果出现下图所示的问题,就要小心了,考虑是不是需要检查数据源和数据管道。
在这里插入图片描述

问题 2:数据分布:数据是完整的吗? 格式正确吗?

第二个问题是关于分布的,关系到数据的字段级健康状况。空值是帮助我们理解字段级分布的一个特征。例如,对于某个特定字段,如果通常期望特定的空值率百分比,然后突然以非常显著的方式飙升,很可能就出现了分布问题。除了空值,分布变化的其他指标,比如数据中预期值的异常变化等都可能提示了数据本身的质量出现了问题。

在这里插入图片描述

问题 3:数据体量:所有的数据都到了吗?

数据体量从字面上看是指文件或数据库中的数据量,是衡量数据摄入量是否达到预期阈值的最关键的指标之一。体量还包括的数据表的完整性,并提供了关于数据源健康状况的提示。如果通常 2 亿行的日志突然变成了 500 万行,那你可应该有所警觉。
在这里插入图片描述

问题 4:数据模式:数据结构是怎样的,它是如何改变的?谁做了这些改变,原因是什么?

数据模式,换句话说,就是在数据管理系统中,用规范化语言进行描述的结构。很多时候,模式的变化是数据宕机事件的首要原因。字段被添加或删除、更改等,表被删除或不能正常加载等。因此,对模式进行强有力的审计是一个很好的方法,把它作为数据可观察性框架的一部分来检查数据的健康状况。

在这里插入图片描述

问题 5:数据血缘:数据的上下游受到了哪些影响?谁是产生这些数据的人,谁在依赖这些数据进行决策?

最后一个,也可能是最综合的一个表征,是数据血缘。血缘帮助我们把前面的四个问题表征合而为一,我们可以通过它描绘出整个数据生态系统的地图。当数据出问题时,我们第一个想问的问题总是 “在哪里?”。数据地图提供了答案,它告诉你哪些上游来源和下游摄取者受到了影响,以及谁生成数据,谁在访问数据。良好的数据血缘还收集了有关数据的信息(被称为元数据),这些信息涉及与特定数据表相关的治理、业务和技术准则,作为所有数据消费者的统一依据。 有了这张数据地图在手,那真是就像是有了活的装修走线图纸,万事无忧。

在这里插入图片描述

下一步:AIOps 的未来

更清晰的了解了 AIOps 的隐蔽工程,才算真正领悟了 AIOps 的精髓。 要想先人一步能够享受到 AIOps 带来的智能决策体验,就必须扎扎实实把数据隐蔽工程做好。 灵犀 AIOps 产品依托于灵犀可观察性数据中台,可以轻松完成对各种可观察性异构数据源的对接和集成,可视化构建数据处理通道,并对整个过程中的数据新鲜度、数据分布、数据体量、数据模式和数据血缘进行有效监测,形成可观察性数据地图,并为将来实现完整的可观察性知识图谱和完全托管的智能决策系统提供坚实的基础。 相信我们离实现无人值守的理想运维真 AIOps 的那一天并不遥远啦。

【数据驱动】【航空航天结构的高效损伤检测技术】一种数据驱动的结构健康监测(SHM)方法,用于进行原位评估结构健康状态,即损伤位置和程度,在其中利用了选定位置的引导式兰姆波响应(Matlab代码实现)内容概要:本文介绍了一种基于数据驱动的结构健康监测(SHM)方法,利用选定位置的引导式兰姆波响应对航空航天等领域的结构进行原位损伤检测,实现对损伤位置与程度的精确评估,相关方法通过Matlab代码实现,具有较强的工程应用价值。文中还提到了该技术在无人机、水下机器人、太阳能系统、四轴飞行器等多个工程领域的交叉应用,展示了其在复杂系统状态监测与故障诊断中的广泛适用性。此外,文档列举了大量基于Matlab/Simulink的科研仿真资源,涵盖信号处理、路径规划、机器学习、电力系统优化等多个方向,构成一个综合性科研技术支持体系。; 适合人群:具备一定Matlab编程基础,从事航空航天、结构工程、智能制造、自动化等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于航空航天结构、无人机机体等关键部件的实时健康监测与早期损伤识别;②结合兰姆波信号分析与数据驱动模型,提升复杂工程系统的故障诊断精度与可靠性;③为科研项目提供Matlab仿真支持,加速算法验证与系统开发。; 阅读建议:建议读者结合文档提供的Matlab代码实例,深入理解兰姆波信号处理与损伤识别算法的实现流程,同时可参考文中列出的多种技术案例进行横向拓展学习,强化综合科研能力。
【无人机论文复现】空地多无人平台协同路径规划技术研究(Matlab代码实现)内容概要:本文围绕“空地多无人平台协同路径规划技术”的研究展开,重点在于通过Matlab代码实现对该技术的论文复现。文中详细探讨了多无人平台(如无人机与地面车辆)在复杂环境下的协同路径规划问题,涉及三维空间路径规划、动态避障、任务分配与协同控制等关键技术,结合智能优化算法(如改进粒子群算法、遗传算法、RRT等)进行路径求解与优化,旨在提升多平台系统的协作效率与任务执行能力。同时,文档列举了大量相关研究主题,涵盖无人机控制、路径规划、多智能体协同、信号处理、电力系统等多个交叉领域,展示了该方向的技术广度与深度。; 适合人群:具备一定Matlab编程基础和路径规划背景的研究生、科研人员及从事无人机、智能交通、自动化等相关领域的工程技术人员。; 使用场景及目标:①用于学术论文复现,帮助理解空地协同路径规划的核心算法与实现细节;②支撑科研项目开发,提供多平台协同控制与路径优化的技术参考;③作为教学案例,辅助讲授智能优化算法在无人系统中的实际应用。; 阅读建议:建议结合提供的Matlab代码进行实践操作,重点关注算法实现流程与参数设置,同时可参照文中列出的其他相关研究方向拓展技术视野,建议按目录顺序系统学习,并充分利用网盘资源进行仿真验证。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值