多云环境中的站点可靠性工程(SRE)介绍
1. SRE 中的风险分析
在 SRE 里,可靠性既是应用和系统架构设计的一部分,也是可衡量的特性。工程师可采取措施缩短检测、响应和修复时间,架构师能设计容错系统。不过,这一切都有成本,系统是否需要容错是基于业务案例的商业决策。
风险的基本规则是:风险 = 概率 × 影响。企业运用风险管理来确定实施限制概率和/或影响的措施的商业价值,也就是确定可靠性工程的价值,同时对 SRE 团队产品待办事项中的可靠性措施进行优先级排序。常见的五种风险策略(PRACT)如下:
- 预防(Prevent) :完全避免风险。
- 降低(Reduce) :降低风险发生的影响或可能性。
- 接受(Accept) :接受风险的后果。
- 应急(Contingency) :在风险发生时规划并执行措施。
- 转移(Transfer) :将风险后果转移,例如转移给保险公司。
如果故障影响巨大,可考虑预防风险的策略,这会决定服务水平目标(SLO),即系统应达到的良好程度。比如,可用性可设定为 99.99%,错误预算仅为 0.01%,这对系统架构有影响,因为风险评级每年只允许 52 分钟的停机时间。
错误预算用于控制风险并做出不影响 SLO 的决策。计算对 SLO 的影响时,需考虑以下因素:
|因素|说明|
| ---- | ---- |
|检测时间(TTD)|检测软件或系统中问题所需的时