http://www.infoq.com/cn/news/2018/01/netflix-engineering-culture
发现事故和健康运维状况下的模式
仔细研究事故,提很多问题。比如:
• 事故是什么原因导致的?
• 我们之前怎么做,能够避免这次事故?
• 是不是有某个最佳实践并没有遵守?
• 是不是团队遵守了某个最佳实践,但是没起到预期效果?
• 团队应该怎么做,以避免再次发生类似事故?
• 在事故发生时,我们掌握了哪些信息,能让我们更快地理解事故原因?
• 有什么工具可以帮我们降低事故严重性和持续时间?
• 这种问题之前发生过吗?有没有什么模式?
• 卷入事故的团队,是不是犯了更多主动失误?发生了什么?
除了提问分析,还要分析事故数据,发现模式。