网站可靠性工程与服务生命周期管理全解析
1. 网站可靠性工程(SRE)核心实践
Google 的网站可靠性工程(SRE)核心实践经过了十多年的打磨才公之于众。在首届 USENIX SREcon 上,Google 网站可靠性工程副总裁 Benjamin Treynor Sloss 列举了以下核心实践:
1. 仅招聘会编码的人员。
2. 为服务制定服务水平协议(SLA)。
3. 对照 SLA 衡量和报告服务性能。
4. 使用错误预算并以此控制服务发布。
5. 让 SRE 和开发人员共享人员池。
6. 将多余的运维工作分配给开发团队。
7. 将 SRE 的运维负载上限设定为 50%。
8. 让开发团队承担 5%的运维工作。
9. 值班团队在一个地点至少应有 8 人,或在多个地点每个地点至少有 6 人。
10. 每次值班轮班的事件数量最多为 2 个。
11. 对每个事件进行事后分析。
12. 事后分析不追究个人责任,重点关注流程和技术。
这些实践的核心原则之一是 SRE 人员必须具备编码能力。他们可能不是全职的软件开发人员,但应能通过编写代码解决重要问题。当面对需要重复执行 30 次的任务时,SRE 人员会完成前两次,然后感到厌烦并自动化剩余的任务。
共享人员池的做法意味着项目分配一定数量的工程师,这些工程师可以是开发人员或 SRE 人员。每增加一名 SRE 人员,团队中的开发人员就会相应减少。这与大多数公司将系统管理员和开发人员从不同预算的团队中分配的情况形成对比。共享人员池鼓励开发人员创建高效可操作的系统,以减少对 SRE 人员的需求。
要求开发
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



