站点可靠性工程:服务级别管理定义与首字母缩写词解析
在当今的 IT 领域,站点可靠性工程(SRE)扮演着至关重要的角色。它不仅是一种实践,更是一种专业角色,旨在确保系统和应用程序的可靠性。接下来,我们将深入探讨 SRE 中的一些核心概念和指标。
1. 风险评估
在 SRE 中,可靠性是核心目标,即系统或应用程序工作负载的可接受正常运行时间。然而,追求 100% 的可靠性并不现实,因为这不仅难以实现,而且维护成本极高。对于许多企业来说,用户可能无法察觉 5 分钟停机和 15 分钟停机之间的差异,但将停机时间从 15 分钟缩短到 5 分钟可能会给企业带来巨大的成本和工作量。
风险评估是 SRE 中的重要环节。作为 SRE 工程师,需要不断管理风险,例如在优化应用程序稳定性和开发新功能之间做出权衡。同时,应从可接受的风险开始,例如,如果企业同意 99.9% 的可用性目标,即允许 0.1% 的停机偏差,那么就没有必要追求更高的可靠性。
2. 随时间的可用性
除了可接受的风险指标外,了解系统随时间的可用性也非常重要。不同时间段内的可用性目标(如 1 天、1 个月或 1 年)是不同的,因为可用性并非线性的。以下是不同时间段内 99.9% 可用性的具体数据:
| 时间 | 1 天(24 小时) | 1 个月(730 小时) | 1 年(8760 小时) |
| — | — | — | — |
| 99.9% 可用性 | 23.976 小时 | 729.27 小时 | 8751.24 小时 |
| 不可用分钟数 | 最大 1.44 分钟/天 | 最大 43.8 分钟/月 | 最大 525.6 分钟/年 |
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



