- 作为生产系统的监管者,on-call工程师负责处理生产环境中即将或者正在发生的业务事故,以及评审对生产系统的变更请求。
- 紧急事件(incident)的定义是:一系列根本原因一致或者相关的事件和报警信息,这些事件应该在同一个事后报告中讨论
- 现代理论研究指出,在面临挑战时,一个人会主动或非主动(潜意识)地选择下列两种处理方法之一:
(a)依赖直觉,自动化、快速行动。
(b)理性、专注、有意识地进行认知类活动。
- 在应急事件处理过程中,最理想的方法论是这样的:在有足够数据支撑的时候按步骤解决问题,同时不停地审视和验证目前所有的假设。
- 让on-call SRE知道他们可以寻求外部帮助,对减轻on-call压力也很有帮助。最重要的资源有:
(a)清晰的问题升级路线。
(b)清晰定义的应急事件处理步骤。
(c)无指责,对事不对人的文化氛围
- 虽然给一个非常安静的系统on-call值班是很幸福的事情,但是当一个系统太稳定,或者SRE on-call的周期太长会发生什么呢?SRE团队运维压力不够也是一个不良现象。长时间不操作生产环境会导致自信心问题,包括自信心太强以及自信心不够。这些现象只有在下一次发生问题时,才会显现出来。
读书笔记(SRE:Google运维解密):第11章 on-call轮值
最新推荐文章于 2024-08-19 11:08:23 发布
本文探讨了on-call工程师在生产事故处理中的角色,强调了数据驱动决策、清晰的应急流程和团队支持的重要性。还关注了过度稳定的系统可能带来的问题,以及如何平衡on-call压力和技能保持。
1313

被折叠的 条评论
为什么被折叠?



