运维值班与事件响应全解析
运维值班管理
监控与响应期望
为了确保运维值班工作按照预期进行,可设置非分页警报,以突出显示未按期望处理的页面情况。管理者和技术负责人需确保这些期望得以实现。同时,当交接不符合期望时,团队成员应相互跟进。积极的反馈,如“这可能与 123 号 bug 相关”“我已根据你的发现提交了一个 bug,以便后续详细跟进”或“这看起来和我上周三值班时发生的情况很像:<页面链接,bug 链接>”,能有力地强化预期行为,并确保充分利用改进机会。毕竟,没人希望因同样的问题在不同班次被呼叫。
警惕运维过载
团队往往会因各种小问题而陷入运维过载。为避免这种情况,需关注值班工程师的长期健康状况,并确保 SRE 和开发团队始终将生产健康置于优先地位。以下方法有助于团队密切关注寻呼机负载:
- 在生产会议上,根据收集的结构化数据定期讨论寻呼机负载趋势,21 天滚动平均值很有用。
- 当寻呼机负载超过团队事先商定的“警告”阈值时,设置票务警报,可针对技术负责人或管理者。
- SRE 团队和开发团队定期开会,讨论生产现状和导致 SRE 被呼叫的未解决生产 bug。
值班灵活性
- 轮班时长 :每天需处理一个或多个页面的值班轮换应采用可持续的方式,建议将轮班时长限制在 12 小时。较短的轮班对工程师的心理健康有益,长时间轮班易导致团队成员疲惫,而疲惫时人们容易犯错。虽然理想情况下应将值班轮班分散在团队的白天时间,但 12 小时轮班制并不一定需要全球分布的团队。例如,可让两名工程师分担一周的值班工作,一人白天值班,一人夜间值班,而
超级会员免费看
订阅专栏 解锁全文
814

被折叠的 条评论
为什么被折叠?



