持续优化的值班管理策略
1. 开启自我持续的优化循环
以往,我们团队常常陷入故障分类、根因分析和事后总结的循环中,耗费大量时间。如今,我们有了更多精力去思考如何推动业务向前发展。具体而言,我们开展了一系列项目,例如改进微服务平台,为产品开发团队制定生产就绪标准。后者借鉴了我们在重构值班体系时遵循的诸多原则,这对初次承担值班任务的团队尤为有益。通过这些举措,我们形成了一个人人受益的值班优化循环。
2. 值班实施细节探讨
2.1 寻呼机负载剖析
寻呼机频繁作响,让团队成员不堪其扰。我们需要明确寻呼机负载的概念,它指的是值班工程师在一个典型轮班时长(如每天或每周)内收到的寻呼事件数量,一个事件可能包含多次寻呼。接下来,我们将分析影响寻呼机负载的各种因素,并提出降低未来负载的方法。
2.2 合理的响应时间
工程师无需在收到寻呼后几分钟内就坐在电脑前处理问题,除非有充分的理由。例如,面向客户、产生收入的服务完全中断时,通常需要立即响应;而对于不太严重的问题,如备份失败,可以在数小时内处理。我们建议检查当前的寻呼设置,确定是否真的需要为所有触发寻呼的问题发出寻呼。有些问题可能更适合通过自动化修复或创建工单来处理。以下是一些实际事件及相应的合理响应时间示例:
| 事件描述 | 响应时间 | SRE 影响 |
| — | — | — |
| 影响收入的网络中断 | 5 分钟 | SRE 必须随时能拿到已充电并认证、可联网的笔记本电脑,不能外出,需与二线人员密切协调 |
| 客户订单批量处理系统卡住 | 30 分钟 | SRE 可以外出办个小事或短距离通勤,二线人员此时无需提供支持 |
优化SRE值班管理策略
超级会员免费看
订阅专栏 解锁全文
95

被折叠的 条评论
为什么被折叠?



