1 引 言
网络故障定位能力主要依赖于网络拓扑关系,通过判定故障是否同源来实现相关告警的压缩、过滤、关联分析,进而锁定根告警或缩小告警根因范围。这严重依赖于网络资源的准确性,在资源不准或不全情况下将难以通过网络资源拓扑关系定位故障原因。只能派发网络故障单,依靠人工业务、技术经验分析故障原因。甚至只能通过派单人工现场勘察定位,以致网络故障的定位效率低下,业务恢复时长不可控,容易造成客户投诉。
针对资源不准下网络故障定位的痛点、难点,我们尝试探索解决思路,通过引入文本相似度、光路占比计算等分析技术,针对常见资源不准场景给出解决方案,提高告警关联准确性,从而提升故障定位能力,减少无效的网络故障单派发。
2 故障场景聚焦
本文聚焦动环停电与传输光缆中断两种故障场景时资源不准情况下通过引入不同的故障告警关联分析手段,解决在资源不准情况下挖掘设备间潜在告警关联关系,并将该关联关系应用于后续实时告警分析过程,助力快速定位告警根源,反向实现资源数据初步较准,实现告警工单的合并派发,减少一线人员压力。
动环设备停电场景:基于告警特征的文本相似度挖掘机房与设备间潜在关联关系
从历史告警数据中抽取由于资源不准无法实现告警关联的告警数据,以该类告警为节点提取一定时间窗(如:30分钟)期内告警数据,引入文本相似度算法对告警关键字文本进行智能分析,锁定与之相关的告警数据,并对告警所属设备进行标识。最后可持续通过大量样本数据的持续推演、验证两者间的关联关系。
传输光缆中断场景:基于光路占比计算挖掘光缆与传输设备间潜在的关联关系
通过定位各个设备及传输路由历史告警端口的光路,结合信号流溯源分析手段,以同一个路由复用段为范围,对单个或多个系统段的特定告警进行分析,追溯故障源头设备端口所在段落,进而定位出对应故障系统段。最后将分析判断出来的设备、端口、光路、光缆形成传输朔源关联库,用于后续实时的告警关联分析。
下面,针对上述两种故障场景进行详细解决方案探索。
3 基于文本相似度分析的故障定位
典型应用场景:动环停电告警下退服设备故障定位。
主要痛点分析:当机房出现停电故障,将产生机房停电以及大量受影响设备的退服告警,但由于资源不准或缺失,在故障管理系统中设备退服告警与机房停电告警未能进行自动关联,受影响的退服告警无法进行压缩、过滤,最终生成大量网络故障单派发一线人员处理,造成一线人员排查压力巨增。
关键解决举措:引入文本相似度算法,从历史告警数据中挖掘机房与相关设备间的潜在关联关系,补齐资源不准或缺失的不足,为后续实时告警关联分析提供参考依据。
按关联时间窗的设置,将停电相关的基站、设备(如OLT)等退服告警进行关联。并增加文本相似度算法,将停电告警出现时30分钟时间范围的基站退服、设备(如OLT)等退服等历史告警推演一并计算,判断资源的准确情况,并将可能存在资源不准的网络设备进行标识。
定位过程示例图如下:

本文针对资源不准下网络故障定位的痛点,聚焦动环停电与传输光缆中断两种场景,引入文本相似度、光路占比计算等分析技术,挖掘设备间潜在告警关联关系,实现告警工单合并派发,还介绍了两种场景的故障定位方法,并对未来完善故障定位手段进行了展望。
最低0.47元/天 解锁文章
3099

被折叠的 条评论
为什么被折叠?



