方法论与技术栈双管齐下的运维可用性能力建设（三）

最新推荐文章于 2025-09-15 08:22:39 发布

原创

最新推荐文章于 2025-09-15 08:22:39 发布 · 918 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#运维 #人工智能 #企业微信

3Google SRE的可用性保障

关于Google SRE的理解在之前梳理的文章中做了一些总结，以下仍引用那篇小文中的理解：

SRE这个名词最早是从《Google SRE运维解密》一书中获得，全称是Site Reliability Engineering，翻译过来就是：站点可靠性工程师。Google对SRE的职责描述为：确保站点的可用，为了达到这个目的，一方面他需要对站点涉及的系统、组件熟悉，也要关注生产运行时的状态。

为此，他需要自开发并维护很多工具和系统支撑系统的运行，比如自动化发布系统，监控系统，日志系统，服务器资源分配和编排等。SRE是一个综合素质很高的全能手，如果对他的能力进行分解主要有三块：

熟悉系统架构与运行状态：SRE需要懂服务器基础架构、操作系统、网络、中间件容器、常用编程语言、全局的架构意识、非常强的问题分析能力、极高的抗压能力（以便沉着高效地排障），他们还需要懂性能调优理论。为了保证系统架构的高可用，SRE甚至会有意识的破坏自己的系统，以提高系统可用性。

熟悉运维涉及的管理方法：SRE需根据企业自身发展需要，清楚运维涉及的各项工作的流程方法论，比如故障处理、应用发布、可用性管理等等，SRE十分重视运维流程的持续改善，比如对故障的追丁溯源，怀疑一切的方式持续改进。

运维开发+产品经理：SRE在运行保障过程中的手段更加自动化，更高效，这种高效来源于自动化工具、监控工具的支撑，且他们还需要是这些工具的主要开发者，他们要不断优化和调整，使整个工具箱使起来更加得心应手。为此SRE有一个50%的理念，就是50%用于日常保障，50%用于项目性的工作，这个项目性的工作主要体现在运维开发与运维产品经理的角色。

总的来说，BCM更关注于从管理层面可用性能力建设方法论，而从Google现有的分享来看，Google SRE更关注于技术层面的可用性能力建设，两者都值得我们在可用性能力建设中借鉴，以下仅从一个局部梳理我理解的可用性能力建设的一些方面。

三、运维可用性能力建设（技术手段）

关于技术手段方面的可用性能力建设，将

最低0.47元/天解锁文章