浅谈在数字化运营服务管理/ITSM中的事件管理中之“故障复盘”(二)——如何高效组织故障复盘

作者:秦鸿林  紫羚云 CGO兼SaaS负责人

上一篇

《浅谈在数字化运营服务管理/ITSM的事件管理之“故障复盘”(一)——故障复盘的重要性及总体要求》,

我们只谈了故障复盘的必要性和价值。本篇着重分析如何高效组织故障复盘。并在下一篇中,重点阐述故障复盘中的一些注意事项,并给出一个故障复盘的检查表,从各个维度提升故障复盘的质量和效果。

      笔者从公开渠道,收集了2023年以来发生的几起典型的故障:

  • 2023年3月29日,3 月 29 日,#唯品会崩了#的话题登上热搜。

      后续,唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。

      同日,某云厂商发布公告称“监测到广州五区部分云服务异常(CLB、COS、Redis、WAF、TKE、控制台等),目前工程师正在紧急处理中”,微信、QQ 等均出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。最终该云厂商将事件定级为“公司一级故障”,管理层认为,这次事故暴露出容灾设计方案和应急预案不完善的隐患,有关业务部门的风险防范意识不到位,所以对大量相关领导做出了处罚。其中一高级副总裁被通报处理,两位总经理和总监被处以降级和免职处罚……

640.png

  • 3月21日,#东财崩了#登上微博热搜。

      据悉,东方财富APP在当日上午、下午均出现长时间用户登录异常、持仓显示异常、无法交易等情况。3月21日A股下午开盘后,有网友反馈馈,东方财富软件再次崩了。

  • 6月19日,“‘券商一哥’系统崩了”上了热搜……

      按照2021年6月4日证监会发布的《证券期货业网络安全事件报告与调查处理办法》,当集中竞价交易系统以外的实时交易系统出现严重异常, 且故障持续时间30分钟以上的属于重大事件;若故障持续时间10分钟以上的属于较大事件……不管是经济损失,还是对于券商本身的声誉、对券商信息技术部门的负责人的影响,都是不言而喻的。
 

     这几起典型的故障,都是血淋淋的教训,影响、损失都非常巨大。一定不要浪费任何一个故障,不要浪费每次复盘,改进提升,避免更多更大故障,更大损失。

三、如何有效组织故障复盘?

      首先,我们需要建立故障复盘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值