- 基本的事后总结条件为:
(a)用户可见的宕机时间或者服务质量降级程度达到一定标准。
(b)任何类型的数据丢失。
(c)on-call 工程师需要人工介入的事故(包括回滚、切换用户流量等)。
(d)问题解决耗时超过一定限制。
(e)监控问题(预示着问题是由人工发现的,而非报警系统)。
- 协作和知识共享
(a)实时协作:可以很快地收集数据和想法
(b)开放的评论系统:使大家都可以参与进来提供解决方案
(c)邮件通知:
读书笔记(SRE:Google运维解密):第15章 事后总结:从失败中学习
事后总结条件与协作机制
最新推荐文章于 2022-07-22 20:00:00 发布
本文阐述了事后总结的基本条件,包括用户可见的服务中断、数据丢失等问题,并提出了实时协作、开放评论系统及邮件通知等机制来促进团队间的有效沟通与知识共享。
1204

被折叠的 条评论
为什么被折叠?



