作者:秦鸿林 紫羚云 CGO兼SaaS负责人
上一篇
《浅谈在数字化运营服务管理/ITSM的事件管理之“故障复盘”(一)——故障复盘的重要性及总体要求》,
我们只谈了故障复盘的必要性和价值。本篇着重分析如何高效组织故障复盘。并在下一篇中,重点阐述故障复盘中的一些注意事项,并给出一个故障复盘的检查表,从各个维度提升故障复盘的质量和效果。
笔者从公开渠道,收集了2023年以来发生的几起典型的故障:
-
2023年3月29日,3 月 29 日,#唯品会崩了#的话题登上热搜。
后续,唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。
同日,某云厂商发布公告称“监测到广州五区部分云服务异常(CLB、COS、Redis、WAF、TKE、控制台等),目前工程师正在紧急处理中”,微信、QQ 等均出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。最终该云厂商将事件定级为“公司一级故障”,管理层认为,这次事故暴露出容灾设计方案和应急预案不完善的隐患,有关业务部门的风险防范意识不到位,所以对大量相关领导做出了处罚。其中一高级副总裁被通报处理,两位总经理和总监被处以降级和免职处罚……
-
3月21日,#东财崩了#登上微博热搜。
据悉,东方财富APP在当日上午、下午均出现长时间用户登录异常、持仓显示异常、无法交易等情况。3月21日A股下午开盘后,有网友反馈馈,东方财富软件再次崩了。
-
6月19日,“‘券商一哥’系统崩了”上了热搜……
按照2021年6月4日证监会发布的《证券期货业网络安全事件报告与调查处理办法》,当集中竞价交易系统以外的实时交易系统出现严重异常, 且故障持续时间30分钟以上的属于重大事件;若故障持续时间10分钟以上的属于较大事件……不管是经济损失,还是对于券商本身的声誉、对券商信息技术部门的负责人的影响,都是不言而喻的。
这几起典型的故障,都是血淋淋的教训,影响、损失都非常巨大。一定不要浪费任何一个故障,不要浪费每次复盘,改进提升,避免更多更大故障,更大损失。
三、如何有效组织故障复盘?
首先,我们需要建立故障复盘