11、SLO 告警策略详解

SLO 告警策略详解

1. 持续时间子句

在过滤极短时间内的临时噪声时,持续时间子句偶尔会很有用。不过,我们也需要了解它的缺点。

多数监控系统允许在告警条件中添加持续时间参数,这样只有当指标值在一段时间内持续高于阈值时,告警才会触发。例如:

- alert: HighErrorRate
    expr: job:slo_errors_per_request:ratio_rate1m{job="myjob"} > 0.001
    for: 1h

下面是使用持续时间参数进行告警的优缺点:
| 优点 | 缺点 |
| — | — |
| 告警精度更高。要求在触发告警前有持续的错误率,意味着告警更有可能对应重大事件。 | 召回率低且检测时间长。由于持续时间不会随事件严重程度而变化,100% 中断和 0.2% 中断的检测时间相同。如果指标值哪怕瞬间回到 SLO 范围内,持续时间计时器就会重置。一个在未达 SLO 和达到 SLO 之间波动的 SLI 可能永远不会触发告警。 |

由于上述缺点,不建议将持续时间作为基于 SLO 的告警条件的一部分。

2. 基于燃烧率的告警

为了改进之前的解决方案,我们可以引入燃烧率的概念,在保持告警预算支出不变的情况下,减小窗口大小,从而创建具有良好检测时间和高精度的告警。

燃烧率是指服务相对于 SLO 消耗错误预算的速度。以下是不同燃烧率对应的错误率和耗尽 SLO 预算所需的时间:
| 燃烧率 | 99.9% SLO 对应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值