二、SLO健康度——从0到1构建SLO
和大多互联网企业一样,蚂蚁的基础设施侧存在众多的异构系统,被上层的业务应用和服务所依赖。考虑到不同系统的技术栈、架构、部署等因素,我们需要找到一种通用的、泛化性强的数字化方案指导和构建基础设施域内的健康度体系。基于这样的客观现状,我们开启了蚂蚁基础设施域内从0到1的SLO健康度体系建设和实践。

系统架构
基于SLO的健康度体系具备很多优势,然而所有的提升都是需要代价的,在建设SLO过程当中也需要更多地投入,这也意味着我们迈进了精细化运维的阶段。从整体上看,我们把SLO的健康度体系分成了4层结构: 最下层是目标系统的运行层,是提供服务的对象实体,包括基础设施域内所有提供服务的应用和系统;其上是SLO的数据层,数据层包括SLI数据收集、SLO数据加工、数据展示、SLO元数据建模、数据清洗、以及常见分析的数据抽取等;再之上是基于SLO数据的场景分析处理能力层,包括基于场景的更高级的数据分析能力、异常检测、故障发现、故障定位、预案关联、以及相关产品建设等能力;最上层则是基于场景能力划分的应用层,用于数据通晒的SLO健康度大盘、健康度应急流水线、辅助计价和成本分摊等应用,赋能到质量、效率、稳定性、成本等具体场景中去。
数据加工
实践之初,我们主要是基于GitOps和Prometheus来构建SLO健康度体系。通过Git管理SLO相关的定义和元数据,以Yaml的形式推送到部署在K8S集群的Prometheus上,Prometheus会

最低0.47元/天 解锁文章
4142

被折叠的 条评论
为什么被折叠?



