
SRE方法论
文章平均质量分 79
介绍SRE相关理论
不思jo
菜鸟中的菜菜鸟
展开
-
SRE方法论之监控设计
监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)原创 2023-11-17 16:13:04 · 403 阅读 · 0 评论 -
SRE方法论之减少琐事
运维不可避免地需要处理部署、升级、重启、告警处理等工作,这其中又包含很多上面所说的琐事,如果不加以控制,琐事会变得越来越多,以至于迅速占据我们每个人100%的时间!每日疲于奔命忙于救火,就无法将更多的力量投入到扩大服务规模的工程工作上去,或者是进行下一代的服务的架构设计。琐事就是不停反复做的工作,如果你正在解决一个新出现的问题或者寻求一种新的解决办法,不算琐事。:琐事是突然出现的、应对式的工作,而非策略驱动和主动安排的。琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。原创 2023-08-28 17:29:16 · 206 阅读 · 0 评论 -
SRE方法论之服务质量目标
为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。原创 2023-08-18 16:56:24 · 249 阅读 · 0 评论 -
SRE方法论之拥抱风险
SRE通过引进“错误预算”的概念,解决了研发团队和 SRE 团队之间的组织架构冲突。SRE 团队的目标不再是“零事故运行”,SRE团队和产品研发团队目标一致,都是在保障业务服务可靠性需求的同时尽可能地加快功能上线速度原创 2023-05-18 09:46:27 · 137 阅读 · 0 评论 -
SRE是什么,与传统运维有什么不同?
SRE就是在用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务原创 2023-03-24 16:16:39 · 629 阅读 · 0 评论