17、随叫随到:Google 与 Evernote 的值班实践解析

随叫随到:Google 与 Evernote 的值班实践解析

1. 随叫随到的基本概念

随叫随到意味着在特定时间段内保持待命状态,并准备以适当的紧急程度响应生产事故。站点可靠性工程师(SRE)通常需要参与值班轮班。在值班期间,SRE 会根据需要诊断、缓解、修复或升级事故。此外,SRE 还需定期承担非紧急的生产职责。

在 Google,随叫随到是 SRE 的显著特征之一。SRE 团队负责缓解事故、修复生产问题并自动化操作任务。由于大多数 SRE 团队尚未完全自动化所有操作任务,因此需要有人值班来处理升级情况。不过,并非所有 SRE 团队都需要值班,这取决于所支持系统的关键程度和开发状态。

常见的关于随叫随到的问题包括:
- 公司规模小,人员少且无不同时区站点,之前描述的方法是否适用?
- 开发人员和 DevOps 混合值班,如何组织?
- 值班工程师 24 小时内被呼叫上百次,如何解决?
- 值班人员流动率高,如何解决团队知识差距?
- DevOps 团队重组为 SRE,三者值班有何区别?

2. Google 随叫随到的原则
  • 目标平衡 :Google 随叫随到的总体目标是为关键服务提供保障,同时确保不牺牲值班工程师的健康。SRE 工作应是值班和项目工作的健康结合,规定 SRE 至少 50%的时间用于项目工作,以确保团队有时间解决生产中发现的问题。
  • 事件限制 :目标是每个值班班次最多处理两起事件,以确保有足够时间进行后续跟进。若呼叫负载过高,则需采取纠正措施。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值