1、站点可靠性工程基础全面解析

最新推荐文章于 2025-08-27 18:39:07 发布

cuda7parallel

最新推荐文章于 2025-08-27 18:39:07 发布

阅读量64

点赞数

CC 4.0 BY-SA版权

分类专栏： Azure SRE艺术：构建可靠云应用文章标签：站点可靠性工程 SRE DevOps

本文链接：https://blog.youkuaiyun.com/cuda7parallel/article/details/150377961

Azure SRE艺术：构建可靠云应用专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

站点可靠性工程基础全面解析

1. 站点可靠性工程的历史渊源

在过去，企业通常依靠系统管理员来部署和管理数据中心组件，涵盖存储、网络、系统和安全等方面。而开发人员则负责创建软件并专注于开发相关工作，应用程序的部署工作也常常由系统管理员执行。

这种分工模式在应用程序部署到生产环境的前、中、后阶段，常常引发摩擦。一旦出现问题，比如网页应用无法运行，或者前端无法连接到数据库后端，故障排查工作既令人沮丧又耗时。系统管理员会从系统角度出发，检查网络、防火墙和系统进程等；而开发人员则从软件角度，验证代码。

站点可靠性工程（SRE）这一术语的起源可追溯到谷歌工程副总裁 Ben Treynor Sloss。SRE 的基本理念是，负责运营任务及相关故障的技术团队应将这些问题视为软件问题。谷歌的技术团队无论招聘到运营团队还是开发团队的人员，都统一称为工程师，这也解释了为何处理运营问题与处理软件问题本质相同，同时也导致了 SRE 与 DevOps 概念的混淆。

SRE 中的 “Site” 有双重含义。最初，当谷歌主要专注于谷歌搜索引擎（www.google.com 及本地域名）时，“Site” 指确保该主页始终正常运行。多年后，其含义扩展到 “服务”。在谷歌内部，SRE 实践不仅用于搜索引擎网站，还用于 Gmail、谷歌办公套件等众多服务。在谷歌之外，SRE 同样可指代 “服务”，涵盖本地数据中心、混合云或公共云服务。

有趣的是，谷歌工程师确保谷歌搜索网站始终可用，是因为该网站的用途远超搜索本身。当连接公共 Wi-Fi 热点或验证 4G 移动网络连接时，人们通常会首先尝试连接谷歌网站。若网站无响应，人们往往会认为是网络连接问题，而非网站本身故障。