探索 OpenShift 运维:从传统到 SRE 的转变
1. 分布式软件运维与 OpenShift 概述
在当今的技术领域,运维分布式软件是一项极具挑战性的任务。它要求运维人员对所维护的系统有深入的理解,因为无论自动化程度有多高,都无法完全替代高技能的运维人员。
OpenShift 是一个旨在帮助软件团队开发和部署分布式软件的平台。它内置了大量工具,或者可以轻松部署其他工具。虽然 OpenShift 能为用户提供很大的帮助,减轻许多传统的手动运维负担,但它本身也是一个需要部署、操作和维护的分布式系统。
许多公司设有平台团队,基于 OpenShift 为软件团队提供开发平台,这样可以集中维护工作,并在整个组织内标准化部署模式。这些平台团队正越来越多地向站点可靠性工程(SRE)团队转变,将软件开发实践应用于运维任务。例如,用更完善的软件解决方案取代脚本,这些解决方案可以更轻松地进行测试,并使用持续集成/持续交付(CI/CD)系统自动部署。同时,警报也从简单的基于原因的警报(如“虚拟机 23 上使用了大量内存”)转变为基于服务级别目标(SLO)的基于症状的警报(如“请求处理时间比预期长”)。
2. 传统运维团队面临的问题
传统运维团队在运维 OpenShift 时面临诸多挑战,具体如下:
- 警报处理与人力扩展 :随着服务采用率的增长,警报数量会不断增加。如果警报策略无法扩展,运维团队将面临巨大压力。例如,若维护的软件每个租户每天产生一个警报,一个工程师负责 10 个租户,那么要处理两倍数量的租户,就需要两倍数量的工程师来响应警报。这些工程师在处理警报和调查问题时,实际上无法致力于减少警报带来
超级会员免费看
订阅专栏 解锁全文
6540

被折叠的 条评论
为什么被折叠?



