SRE团队协作策略与实践
1. 设定基本规则
SRE团队有短期和长期两大目标:
- 短期目标 :提供一个可操作的稳定系统,满足产品的业务需求,该系统要可用并能随需求扩展,同时兼顾可维护性。
- 长期目标 :将服务运营优化到无需持续人工干预的水平,以便SRE团队可以开展下一个高价值项目。
为实现这些目标,团队应达成以下合作原则:
- 明确运营工作的定义和硬限制。
- 为服务制定并衡量服务级别目标(SLO),用于为开发团队和SRE团队的工程工作确定优先级。虽然可以在没有SLO的情况下启动项目,但经验表明,从合作一开始就建立SLO能避免后续返工。
- 商定季度错误预算,以确定发布速度和其他安全参数,如处理意外使用增长的额外服务容量。
- 让开发人员参与日常运营,确保持续存在的问题可见,并优先解决其根本原因。
2. 规划与执行
主动规划和协调执行能确保SRE团队在优化运营和降低运营成本的同时,满足期望和产品目标。建议从两个相关层面进行规划:
- 与开发领导层一起,为产品和服务设定优先级,并发布年度路线图。
- 定期审查和更新路线图,并根据路线图制定目标(季度或其他周期)。
路线图能确保每个团队都有明确、高影响力的长期工作规划。不过,在某些情况下(如开发组织变化过快)可以不使用路线图。但在稳定环境中,没有路线图可能意味着SRE团队需要与其他团队合并、将服务管理工作交回开发团队、扩大业务范围或解散。与开发领导层进行持续的战略对话有助于快速识别重点转移,讨论SRE为业务增加价值的新机会,或停止对产
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



