文章目录
前言
写完 《复盘要领》 之后, 我感觉我写完了一个模块。
所以,我现在要导入这个模块了:
from 《复盘要领》 import *
对于技术故障,往往是先恢复,后复盘。
因此根据实际的故障复盘需要,一般可分为复盘前、复盘中、复盘后。
一、故障复盘前
对于普通的故障,这个步骤是也就快速带过了,不一定需要。
主要是那些严重复杂的大故障,复盘前需要做较多准备,
比如要拉起一个多人复盘大会议,那么本着“高效会议”的精神,会议前是有必要做些准备的。
1、确定参会人
尽量卷入所有故障相关人员,如故障服务负责人、故障引发人、故障处理人 以及各团队主要负责人。
2、发送会邀
跟主要与会者沟通确认会议时间,并发送会议邀请。
3、准备复盘材料
材料需要能再现故障过程,准备好故障从发生到解决过程中的详细操作记录和各个操作节点的相关监控数据。
4、明确复盘目标
如何让修复过程更加高效,缩短故障持续时间
如何杜绝此类问题再次发生,错不二犯
二、故障复盘中
1、复盘一:让修复过程更加高效,缩短故障持续时间
1.1 明确目标
讨论得出结论:如何让修复过程更加高效,缩短故障持续时间
1.2 评估结果
当前故障持续时间较长,存在改进空间
1.3 分析原因与总结改进
围绕过程,寻找问题点,通常可以从这几方面追根究底:
复盘项 | 问题点 | 总结改进 | |
监控报警 | 监控是否足够完备? | 流程监控 | |
报警是否足够及时? | 秒级监控、自动报障 | ||
故障响应 | 故障响应时间是否过长、能否缩短、如何缩短? | 故障电话、主备负责人 |