如何利用故障根因分析快速定位故障原因?

本文介绍了一种在线环境中的故障管理解决方案,通过EasyOps平台的故障根因分析功能,自动关联告警并分析故障原因,无论是变更还是高负载,都能快速定位问题,显著提高MTTR。只需简单配置服务SLI和告警规则,就能实现高效运维。

「 背 景 」

众所周知,变更是线上环境不稳定的⾸要因素,有研究表明,线上70%的故障都是由某种变更⽽触发的。因此,当⽣产环境发⽣故障产⽣告警时,管理员第⼀直觉是怀疑近期是否发⽣过变更。此时,我们往往需要⼿动查找变更⽇ 志,确认近期的变更计划,这个过程既繁琐⼜低效。

另外⼀种导致⽣产环境故障的原因,则是服务所在基础设施的⾼负载,⾼饱和度影响了服务的容量和性能。

我们希望具备这么⼀种⾃动分析的能⼒,它能够联动⽣产环境的告警,并⾃动分析产⽣告警的原因是由于变更,还 是由于系统的⾼负载。并且分析结果能以直观的拓扑结构展示出来,我们希望能看到服务间的调⽤关系,所依赖的 中间环节和基础设施以及哪个环节出现变更或者异常。如下图所示:

并且,它可以智能将告警服务周边所有的服务调⽤链路环节贯通并分析出导致异常的可能原因:

这种能⼒就是EasyOps平台的故障根因分析的能⼒。我们看看如何配置和使⽤它们,以及图表达的含义。

「 实 践 」

⾸先,先定义出服务的SLI。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值