在网络上关于 SRE 的讨论中,故障相关的内容比比皆是,但关于故障发生时的应急处理过程的详细讨论却寥寥无几。然而面对故障,故障指挥官一定面临着较大的压力,需要快速、正确地处置故障,应对内外部的挑战。在这篇文章中,我们将重点探讨故障指挥官在故障处理过程中的具体行动思路。
值得注意的是,本文总结了作者在担任故障指挥官时,对故障感知、故障定级、故障处理以及故障恢复等环节的经验和心得,而并未涉及如何预防故障或进行故障复盘的内容。

1、故障感知
众所周知:故障一般来自两个部分的输入:监控系统和用户(客户)报障。
-
首先,监控系统在SRE工作中起着至关重要的作用。监控系统可以实时监测系统的业务指标和性能参数。当系统出现异常或达到预设的条件时,监控系统会自动触发告警并发送给SRE团队。这些告警包括基础设施监控(如服务器负载过高、网络延迟异常、存储空间不足等等),也包括业务层面的监控(如接口成功率、页面白屏化/JS错误等)。
-
其次,客户或用户的报障也是故障的输入来源。当客户或用户在使用系统时遇到问题或异常情况,他们通过电话、即时通信、工单等各种渠道向技术支持团队报障。我们可以通过程序去监控投诉关键字、重点客户客情,当有客情出现时,SRE可以进行故障排查和解决。
涉及监控系统的实现细节,不在此赘述。

2、故障的定级
在处理故障时,首先需要判断故障的影响范围,即确定是否构成故障。这可以通过以下几种方式进行判断:
-
系统维度判断:监控系统提供了实时的系统指标和性能参数,故障指挥官在收到告警后,可以通过监控数据来判断系统是否真实出现异常。例如,关键接口返回码成功率严重下降,关键接口耗时严重上升,由相关的接口指标数据来定义故障的级别。
-
用户维度判断:如果多个用户报告了相似的问题,根据报障的用户数量来判断、根据监控系统所体现的用户维度的数据,判断该故障可能影响了多少客户,从而定义故障的级别。
-
重点客户的反馈判断:重点客户通常是对系统稳定性和性能要求较高的客户。也是业务的重要收入来源, 他们的反馈对于判断故障的影响范围非常重要。如果重点客户反馈了故障或异常情况,可以根据客户的级别、受影响的业务规模、客情反馈情况等来定义故障的级别。

最低0.47元/天 解锁文章

1618

被折叠的 条评论
为什么被折叠?



