前言
大规模集群,通常是一家公司经过多年发展积累起来的,机器规模达到数万台,服务类型涉及接入、web、业务逻辑、cache、大数据、机器学习等,有以下特点,
特点 |
现象&问题 |
机器规模大, 过保机器多,故障率高 |
数万台机器的集群,过保机器超过30%,硬件故障率约1.3%,其中磁盘故障率约7.5% |
业务模块数目多,上下游关联复杂 |
处理机器问题需要同步处理上下游关系,包括监控、变更系统、状态同步等 |
机器环境差异大,故障处理、环境部署方式各异 |
环境设置不一样,包括系统、内核参数,基础环境依赖等 |
机器利用率不合理 |
A业务机器资源紧缺,B业务机器空闲,却无法快速调配使用 |
机器归属管理困难 |
不同业务的机器,借用、归还、环境清理、过保下架等流程冗长,沟通成本高 |
机器自动化处理工具不具备通用性,复用性低 |
A业务机器的自动处理工具,无法直接在B业务使用,运维工程师重复开发,无沉淀 |
这些问题,存在于整个机器生命周期里,从上架通电到下架报废,不定期制造业务故障,例如因机器故障导致的部署失败、版本不一致、读写异常、性能陡降等;日常消耗一线运维10%~20%的时间,还造成大量的机器、机架资源浪费,得不到有效利用。
本系列文章目录如下,讲述了解决这些问题的方案和实现,实际效果,踩过的坑,希望对读者有帮助。
- 机器运维相关的数据
- 机器运维模式的思考
- 机器故障自动处理
- 机器基础环境管理
- 大规模集群机器快速交付
- 机器日常运维效率
注: 运维工程师= SRE = OP,这三个名词有各自的定义,为表述方便,这里简单地认为是同义词。
- 机器运维相关的数据