方法论与技术栈双管齐下的运维可用性能力建设(三)

3Google SRE的可用性保障

关于Google SRE的理解在之前梳理的文章中做了一些总结,以下仍引用那篇小文中的理解:

SRE这个名词最早是从《Google SRE运维解密》一书中获得,全称是Site Reliability Engineering,翻译过来就是:站点可靠性工程师。Google对SRE的职责描述为:确保站点的可用,为了达到这个目的,一方面他需要对站点涉及的系统、组件熟悉,也要关注生产运行时的状态。

为此,他需要自开发并维护很多工具和系统支撑系统的运行,比如自动化发布系统,监控系统,日志系统,服务器资源分配和编排等。SRE是一个综合素质很高的全能手,如果对他的能力进行分解主要有三块:

熟悉系统架构与运行状态:SRE需要懂服务器基础架构、操作系统、网络、中间件容器、常用编程语言、全局的架构意识、非常强的问题分析能力、极高的抗压能力(以便沉着高效地排障),他们还需要懂性能调优理论。为了保证系统架构的高可用,SRE甚至会有意识的破坏自己的系统,以提高系统可用性。

熟悉运维涉及的管理方法:SRE需根据企业自身发展需要,清楚运维涉及的各项工作的流程方法论,比如故障处理、应用发布、可用性管理等等,SRE十分重视运维流程的持续改善,比如对故障的追丁溯源,怀疑一切的方式持续改进。

运维开发+产品经理:SRE在运行保障过程中的手段更加自动化,更高效,这种高效来源于自动化工具、监控工具的支撑,且他们还需要是这些工具的主要开发者,他们要不断优化和调整,使整个工具箱使起来更加得心应手。为此SRE有一个50%的理念,就是50%用于日常保障,50%用于项目性的工作,这个项目性的工作主要体现在运维开发与运维产品经理的角色。

总的来说,BCM更关注于从管理层面可用性能力建设方法论,而从Google现有的分享来看,Google SRE更关注于技术层面的可用性能力建设,两者都值得我们在可用性能力建设中借鉴,以下仅从一个局部梳理我理解的可用性能力建设的一些方面。

三、运维可用性能力建设(技术手段)

关于技术手段方面的可用性能力建设,将

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值