在moogsoft的situation场景下,可以使用根本原因分析技术进行:
-
通过查看可能导致告警的根本原因,您可以立即确定在故障排除和诊断方面应该从哪里入手
-
根因推荐展示top3
-
通过对situation中可能根因的人工反馈,不断优化根因推荐结果
situation:是一种关联场景,即将相关的问题会整合到一起进行分析和处置,如同一个服务或同一个业务系统在20分钟滑动时间窗口内所产生的告警会合并到一个situation中进行处理,这样可以提供给应用管理员更丰富的告警上下文信息,可以全面来看业务层、数据库层、网络层、应用层等不同层级的告警,并进行综合分析和排障。
可能的根因如何运作
可以手动将告警标记为根本原因告警或症状告警。moogsoft RPC模型会使用此数据做为手工打标的数据来进行学习,并在下一次发生类似的situation时,预测其根本原因。

如上图所示,在关闭告警时,如果运维人员已经能够判断出问题的根因,则可以点击”RPC FEEDBACK“按钮,进行可能的根因标注。
随后 ,当moogsoft生成situation时,会将一个或多个告警标记为可能的根本原因。即使其内的告警量很少,也会始终提供根因推荐。通常,moogsoft拥有的数据越多,它就越准确。但是该数据需要保持一致,例如,两个冲突的标签会使模型混淆。如果您不知道根因,请不要胡乱为其做根因的标记。不需要对每个situation都标记根因。如下图所示,红框中即为可能的根因TOP3推荐结果,按分值进行排序。

Moogsoft使用根本原因分析技术,通过机器学习算法对Situation中的告警进行关联分析,提供可能的根因推荐。运维人员可以通过反馈优化模型,标记告警为根本原因或症状,帮助快速定位问题。在不断的学习和调整中,提高故障诊断的准确性。
最低0.47元/天 解锁文章
451

被折叠的 条评论
为什么被折叠?



