34、多云环境中的站点可靠性工程(SRE)介绍

多云环境中的站点可靠性工程(SRE)介绍

1. SRE 中的风险分析

在 SRE 里,可靠性既是应用和系统架构设计的一部分,也是可衡量的特性。工程师可采取措施缩短检测、响应和修复时间,架构师能设计容错系统。不过,这一切都有成本,系统是否需要容错是基于业务案例的商业决策。

风险的基本规则是:风险 = 概率 × 影响。企业运用风险管理来确定实施限制概率和/或影响的措施的商业价值,也就是确定可靠性工程的价值,同时对 SRE 团队产品待办事项中的可靠性措施进行优先级排序。常见的五种风险策略(PRACT)如下:
- 预防(Prevent) :完全避免风险。
- 降低(Reduce) :降低风险发生的影响或可能性。
- 接受(Accept) :接受风险的后果。
- 应急(Contingency) :在风险发生时规划并执行措施。
- 转移(Transfer) :将风险后果转移,例如转移给保险公司。

如果故障影响巨大,可考虑预防风险的策略,这会决定服务水平目标(SLO),即系统应达到的良好程度。比如,可用性可设定为 99.99%,错误预算仅为 0.01%,这对系统架构有影响,因为风险评级每年只允许 52 分钟的停机时间。

错误预算用于控制风险并做出不影响 SLO 的决策。计算对 SLO 的影响时,需考虑以下因素:
|因素|说明|
| ---- | ---- |
|检测时间(TTD)|检测软件或系统中问题所需的时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值