随叫随到:Google 与 Evernote 的值班实践解析
1. 随叫随到的基本概念
随叫随到意味着在特定时间段内保持待命状态,并准备以适当的紧急程度响应生产事故。站点可靠性工程师(SRE)通常需要参与值班轮班。在值班期间,SRE 会根据需要诊断、缓解、修复或升级事故。此外,SRE 还需定期承担非紧急的生产职责。
在 Google,随叫随到是 SRE 的显著特征之一。SRE 团队负责缓解事故、修复生产问题并自动化操作任务。由于大多数 SRE 团队尚未完全自动化所有操作任务,因此需要有人值班来处理升级情况。不过,并非所有 SRE 团队都需要值班,这取决于所支持系统的关键程度和开发状态。
常见的关于随叫随到的问题包括:
- 公司规模小,人员少且无不同时区站点,之前描述的方法是否适用?
- 开发人员和 DevOps 混合值班,如何组织?
- 值班工程师 24 小时内被呼叫上百次,如何解决?
- 值班人员流动率高,如何解决团队知识差距?
- DevOps 团队重组为 SRE,三者值班有何区别?
2. Google 随叫随到的原则
- 目标平衡 :Google 随叫随到的总体目标是为关键服务提供保障,同时确保不牺牲值班工程师的健康。SRE 工作应是值班和项目工作的健康结合,规定 SRE 至少 50%的时间用于项目工作,以确保团队有时间解决生产中发现的问题。
- 事件限制 :目标是每个值班班次最多处理两起事件,以确保有足够时间进行后续跟进。若呼叫负载过高,则需采取纠正措施。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



