服务水平目标(SLO)与监控系统的实践与选择
1. SLO 的重要性与实践
1.1 SLO 设定与业务关联
服务的服务水平目标(SLO)应由业务所有者(通常是产品经理)根据其对业务的重要性来设定。例如,不同类型的应用和服务应对应不同的 SLO 指标:
| SLO 指标 | 适用场景 |
| ---- | ---- |
| 99.5% | 门店员工未使用的应用或新服务的最小可行产品(MVP) |
| 99.9% | 大多数非销售系统 |
| 99.95% | 销售系统(或支持销售系统的服务) |
| 99.99% | 共享基础设施服务 |
将指标用业务术语表述,并在产品和开发团队之间共享一个可见的目标(SLO),可以减少大公司中常见的对可靠性的期望不一致问题。
1.2 SLO 实施案例
某公司在引入 SLO 时,采用了逐步实施的策略,同时制定了全面的推广策略和明确的激励机制,在不到一年的时间里,从 0 个支持 SLO 的服务增加到了 800 个。这表明引入新的流程和文化需要良好的策略、管理层的支持、有力的推广、易于采用的模式,最重要的是要有耐心。
2. 监控系统的基础与作用
2.1 监控系统的数据类型
监控可以包含多种类型的数据,如指标、文本日志、结构化事件日志、分布式跟踪和事件内省等。其中,指标和结构化日志最适合满足 SRE 的基本监控需求。
2.2 监控系统的作用
监控系统的基本作用是让你了解系统的运行情况,这是判断服务健康状况和在出现问题时诊断服务的核心要求。
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



