站点可靠性工程基础全面解析
1. 站点可靠性工程的历史渊源
在过去,企业通常依靠系统管理员来部署和管理数据中心组件,涵盖存储、网络、系统和安全等方面。而开发人员则负责创建软件并专注于开发相关工作,应用程序的部署工作也常常由系统管理员执行。
这种分工模式在应用程序部署到生产环境的前、中、后阶段,常常引发摩擦。一旦出现问题,比如网页应用无法运行,或者前端无法连接到数据库后端,故障排查工作既令人沮丧又耗时。系统管理员会从系统角度出发,检查网络、防火墙和系统进程等;而开发人员则从软件角度,验证代码。
站点可靠性工程(SRE)这一术语的起源可追溯到谷歌工程副总裁 Ben Treynor Sloss。SRE 的基本理念是,负责运营任务及相关故障的技术团队应将这些问题视为软件问题。谷歌的技术团队无论招聘到运营团队还是开发团队的人员,都统一称为工程师,这也解释了为何处理运营问题与处理软件问题本质相同,同时也导致了 SRE 与 DevOps 概念的混淆。
SRE 中的 “Site” 有双重含义。最初,当谷歌主要专注于谷歌搜索引擎(www.google.com 及本地域名)时,“Site” 指确保该主页始终正常运行。多年后,其含义扩展到 “服务”。在谷歌内部,SRE 实践不仅用于搜索引擎网站,还用于 Gmail、谷歌办公套件等众多服务。在谷歌之外,SRE 同样可指代 “服务”,涵盖本地数据中心、混合云或公共云服务。
有趣的是,谷歌工程师确保谷歌搜索网站始终可用,是因为该网站的用途远超搜索本身。当连接公共 Wi-Fi 热点或验证 4G 移动网络连接时,人们通常会首先尝试连接谷歌网站。若网站无响应,人们往往会认为是网络连接问题,而非网站本身故障。
超级会员免费看
订阅专栏 解锁全文
855

被折叠的 条评论
为什么被折叠?



