站点可靠性工程(SRE)全面指南
1. Westrum 类型学
不同的组织文化类型会对 SRE 的实施产生影响,以下是 Westrum 类型学的三种文化类型对比:
| 文化类型 | 特点 | 合作程度 | 信使待遇 | 责任处理 | 跨部门协作 | 失败处理 | 创新处理 |
| — | — | — | — | — | — | — | — |
| 病态型(权力导向) | 权力至上 | 低合作 | 信使受惩罚 | 推卸责任 | 不鼓励跨部门协作 | 失败找替罪羊 | 创新被扼杀 |
| 官僚型(规则导向) | 规则优先 | 适度合作 | 信使被忽视 | 责任范围狭窄 | 容忍跨部门协作 | 失败追求正义 | 创新存在问题 |
| 生成型(绩效导向) | 注重绩效 | 高合作 | 信使接受培训 | 风险共担 | 鼓励跨部门协作 | 失败引发调查 | 创新得以实施 |
生成型文化环境对组织更为有益,原因如下:
- 高合作与跨部门协作:促进更好的合作,打破部门壁垒,形成跨职能团队。
- 信使培训与失败调查:员工能及时分享潜在问题,不惩罚信使,消除指责,失败引发深入探究。
- 风险共担:质量、可用性、可靠性和安全性成为每个人的责任。
2. 确定 SRE 最佳实践
为了在组织中成功实施 SRE,可参考以下最佳实践:
- 自动化一切 :SRE 的基础是最大化工作负载的可接受弹性,因此应尽可能实现自动化。手动处理事件不仅耗时,而且成本高昂。自动化可以涵盖从测试环境部署、测试运行、生产环境重新部署到监控和管理生产工作负载的可靠性等多个环节,还能在发
超级会员免费看
订阅专栏 解锁全文
99

被折叠的 条评论
为什么被折叠?



