家得宝的服务级别目标(SLO)实践之旅
1. 背景与转型
随着向微服务架构的转变,系统中的软件被拆分成不断变化的小块,且需要跨栈集成。同时,引入了“自由与责任文化”的全栈所有权模式,开发者可自主推送代码,但需共同负责服务的运营。在这种模式下,服务之间需要清晰了解彼此的可靠性、延迟、处理请求量等信息,这就需要服务级别目标(SLO)来促进团队间的沟通与协作。
在转型前,家得宝缺乏SLO文化。监控工具和仪表盘分散,无法有效跟踪数据,难以定位故障根源,计划内停机常让依赖服务措手不及,团队也不清楚依赖服务能否满足自身可靠性要求,这些问题导致开发和运营团队之间的困惑和失望。
为解决这些问题,家得宝采取了以下四个方面的策略来建立SLO文化:
- 通用术语 :在公司背景下定义SLO,并确定一致的测量方法。
- 推广宣传 :在公司内传播SLO的重要性,包括创建培训材料、举办路演、发布内部博客、制作宣传物料等,还招募早期采用者展示SLO的价值,建立易记的首字母缩写词(VALET),并创建培训项目(FiRE学院)。
- 自动化 :实施指标收集平台,自动收集生产环境中服务的服务级别指标(SLI),以便后续转化为SLO。
- 激励措施 :为所有开发经理设定年度目标,要求他们为服务设定和测量SLO。
2. 确定通用术语与指标
建立通用术语对于让大家达成共识至关重要,且框架应尽量简单以促进理念传播。通过分析各服务的监控指标,发现各服务都会监控流量、延迟、错误和利用率等指标,与谷
超级会员免费看
订阅专栏 解锁全文
977

被折叠的 条评论
为什么被折叠?



