12、运维琐事管理与优化策略

运维琐事管理与优化策略

在现代的系统运维中,设置有意义且可量化的服务级别目标(SLO)是至关重要的。当我们设定好这样的 SLO 后,就可以配置告警机制,确保只有在错误预算面临可操作的特定威胁时,才通知值班人员。告警技术多种多样,从错误率超过 SLO 阈值时触发告警,到使用多级消耗率和窗口大小的方法。在大多数情况下,多窗口、多级消耗率的告警技术是保护应用程序 SLO 的最佳选择。

什么是运维琐事(Toil)

运维琐事是指与维护服务相关的重复性、可预测的连续任务。它看似不可避免,任何管理生产服务的团队都会遇到。例如系统维护中不可避免的软件部署、升级、重启、告警分类等工作,如果不加以控制和统计,这些活动会迅速消耗团队的时间和精力。

以下是运维琐事的一些特征及具体示例:
| 特征 | 描述 | 示例 |
| ---- | ---- | ---- |
| 手动操作 | 需要人工干预完成的任务 | 当 Web 服务器的 tmp 目录使用率达到 95% 时,工程师安妮登录服务器,手动搜索并删除多余的日志文件 |
| 重复性 | 任务会反复出现 | tmp 目录满的问题不太可能只出现一次,修复该问题的任务具有重复性 |
| 可自动化 | 可以通过自动化手段完成的任务 | 团队的补救文档中包含“登录到 X,执行此命令,检查输出,若看到…则重启 Y”等内容,这些指令对有软件开发技能的人来说本质上就是伪代码。在 tmp 目录的例子中,解决方案已部分自动化,若能完全自动化问题检测和修复,甚至提交补丁使软件不再出现此类问题则更好 |
| 非战术/被动响应 | 过多的告警会分散工程师的注意力,影响服务健康 | 收到大量“磁盘已满”和“服务器停机”等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值