前言
在咨询的经历中,发现有些软件项目经常出现线上事故,出现了线上事故之后,第一时间会去修复这个问题,第二时间,则是问责。
这是一个很有意思的现象,通常在一些传统行业的团队或者政府背景的团队中,发生了线上事故,他们会启动问责程序,找到事故的负责人,并对他做出相应的处罚。
作为程序员,大家都知道,代码的世界不出错是不可能的。问责在很大程度上会导致团队成员不敢写代码,不敢上线,不敢触碰线上环境的一切东西,最终导致团队研发效率下降。
那正确的做法应该是什么呢?
这里就给大家介绍一下Blameless Postmortem,中文意思就是无过错验尸报告。
什么是无过错验尸报告?
无过错验尸报告是对线上事故的书面记录,用来描述:
- 这一线上事故的影响。
- 减轻或解决事故所采取的行动。
- 事故的根本原因。
- 为防止该事故再次发生而采取的后续行动。
无过错验尸报告这个名字是英文直译过来的,如果觉得这个名字过于血腥,可以叫它无过错反思报告,或者无过错事故报告,或者无过错事后分析报告。但更多的人都习惯亲切的叫它验尸报告。
之所以强调无过错,是因为这样的话人们就不会在写报告的时候由于害怕被问责,从而互相埋怨或者隐藏自己的过错。
为什么需要无过错验尸报告?
验尸报告的目标是了解所有导致事故的根本原因,记录事故的经过以供未来参考,并制定有效的预防措施以减少事故再次发生的可能性。
为了使验尸报告能够有效地减少重复事故,总结过程必须激励团队识别根本原因并修复它们。
同时,关注这个过程并确保它是有效的则需要组织中各级的承诺。比如不能出现对团队某个人的问责。
什么时候需要无过错尸检报告?
线上事故都会有严重程度或者影响程度分级,因此,通常我们只会对级别较高的

本文介绍了无过错验尸报告的概念,强调在软件项目中,通过无过错的方式分析线上事故,避免问责导致的研发效率下降。文章详细阐述了无过错验尸报告的目的、何时编写、由谁完成以及如何跟踪改进行动,旨在促进团队学习和持续改进,而非追究责任。
最低0.47元/天 解锁文章
1520

被折叠的 条评论
为什么被折叠?



