1、站点可靠性工程基础全面解析

站点可靠性工程基础全面解析

1. 站点可靠性工程的历史渊源

在过去,企业通常依靠系统管理员来部署和管理数据中心组件,涵盖存储、网络、系统和安全等方面。而开发人员则负责创建软件并专注于开发相关工作,应用程序的部署工作也常常由系统管理员执行。

这种分工模式在应用程序部署到生产环境的前、中、后阶段,常常引发摩擦。一旦出现问题,比如网页应用无法运行,或者前端无法连接到数据库后端,故障排查工作既令人沮丧又耗时。系统管理员会从系统角度出发,检查网络、防火墙和系统进程等;而开发人员则从软件角度,验证代码。

站点可靠性工程(SRE)这一术语的起源可追溯到谷歌工程副总裁 Ben Treynor Sloss。SRE 的基本理念是,负责运营任务及相关故障的技术团队应将这些问题视为软件问题。谷歌的技术团队无论招聘到运营团队还是开发团队的人员,都统一称为工程师,这也解释了为何处理运营问题与处理软件问题本质相同,同时也导致了 SRE 与 DevOps 概念的混淆。

SRE 中的 “Site” 有双重含义。最初,当谷歌主要专注于谷歌搜索引擎(www.google.com 及本地域名)时,“Site” 指确保该主页始终正常运行。多年后,其含义扩展到 “服务”。在谷歌内部,SRE 实践不仅用于搜索引擎网站,还用于 Gmail、谷歌办公套件等众多服务。在谷歌之外,SRE 同样可指代 “服务”,涵盖本地数据中心、混合云或公共云服务。

有趣的是,谷歌工程师确保谷歌搜索网站始终可用,是因为该网站的用途远超搜索本身。当连接公共 Wi-Fi 热点或验证 4G 移动网络连接时,人们通常会首先尝试连接谷歌网站。若网站无响应,人们往往会认为是网络连接问题,而非网站本身故障。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值