运维负担管理策略与案例分析
1. 运维负担管理策略概述
在日常的运维工作中,存在着大量繁琐、重复且对业务价值贡献较低的工作,这些工作被称为运维负担(Toil)。为了有效减少运维负担,提高团队的工作效率和幸福感,以下是一些实用的管理策略。
1.1 提供自助服务
虽然无法通过自助服务处理所有一次性案例,但应致力于覆盖大多数用例。将 80 - 90% 的请求转移到自助服务,能大幅减轻工作量。可以提供网页表单、二进制文件、脚本、API 或相关文档,让用户自行发起请求。例如,为工程师提供一个简单的网页表单或脚本,用于触发新虚拟机的配置,而不是让他们提交工单。当遇到特殊请求或操作失败时,脚本可优雅降级为工单处理。
1.2 利用 SLO 减少运维负担
服务应具备明确的服务水平目标(SLO)。清晰定义的 SLO 能帮助工程师做出明智决策,例如,在不消耗或超出服务错误预算的情况下,可以忽略某些运维任务。关注整体服务健康而非单个设备的 SLO 更具灵活性和可持续性。
1.3 从人工支持接口起步
对于复杂的业务问题和众多边缘情况,可采用部分自动化的方法作为向完全自动化过渡的中间步骤。服务通过定义好的 API 接收结构化数据,但工程师仍需处理部分操作。利用客户输入,逐步统一数据收集方式,减少自由格式请求,更接近以编程方式处理所有请求。
1.4 获取管理和同事的支持
短期内,减少运维负担的项目会减少可用于处理功能请求、性能改进和其他运维任务的人员。但从长期来看,如果项目成功,团队将更健康、更快乐,并有更多时间进行工程改进。组织内的每个人都应认同减少运维负担是一个有价值的目
超级会员免费看
订阅专栏 解锁全文
1374

被折叠的 条评论
为什么被折叠?



