19、运维值班与事件响应全解析

运维值班与事件响应全解析

运维值班管理
监控与响应期望

为了确保运维值班工作按照预期进行,可设置非分页警报,以突出显示未按期望处理的页面情况。管理者和技术负责人需确保这些期望得以实现。同时,当交接不符合期望时,团队成员应相互跟进。积极的反馈,如“这可能与 123 号 bug 相关”“我已根据你的发现提交了一个 bug,以便后续详细跟进”或“这看起来和我上周三值班时发生的情况很像:<页面链接,bug 链接>”,能有力地强化预期行为,并确保充分利用改进机会。毕竟,没人希望因同样的问题在不同班次被呼叫。

警惕运维过载

团队往往会因各种小问题而陷入运维过载。为避免这种情况,需关注值班工程师的长期健康状况,并确保 SRE 和开发团队始终将生产健康置于优先地位。以下方法有助于团队密切关注寻呼机负载:
- 在生产会议上,根据收集的结构化数据定期讨论寻呼机负载趋势,21 天滚动平均值很有用。
- 当寻呼机负载超过团队事先商定的“警告”阈值时,设置票务警报,可针对技术负责人或管理者。
- SRE 团队和开发团队定期开会,讨论生产现状和导致 SRE 被呼叫的未解决生产 bug。

值班灵活性
  • 轮班时长 :每天需处理一个或多个页面的值班轮换应采用可持续的方式,建议将轮班时长限制在 12 小时。较短的轮班对工程师的心理健康有益,长时间轮班易导致团队成员疲惫,而疲惫时人们容易犯错。虽然理想情况下应将值班轮班分散在团队的白天时间,但 12 小时轮班制并不一定需要全球分布的团队。例如,可让两名工程师分担一周的值班工作,一人白天值班,一人夜间值班,而
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值