第Ⅰ部分 概览
第1章 介绍
系统管理员模式
研发团队和系统运维团队分属两个部门所带来的间接成本就没那么容易度量了,但是这些间接成本往往大得多。
Google的解决之道:SRE
-
SRE就是让软件工程师来设计一个新型运维团队的结果。
-
目前来看,UNIX 系统内部细节和1~3层网络知识是Google最看重的两类额外的技术能力。
SRE团队成员具有如下特点
- 对重复性、手工性的操作有天然的排斥感。
- 有足够的技术能力快速开发出软件系统以替代手工操作。
SRE方法论
-
事后总结的目标是尽早发现和堵住漏洞,而不是通过流程去绕过和掩盖它们。
-
"错误预算”起源于这样一个理念:任何产品都不是,也不应该做到100%可靠(显然这并不适用于心脏起搏器和防抱死刹车系统等)。一般来说,任何软件系统都不应该一味地追求100%可靠。因为对最终用户来说,99.999%和100%的可用性是没有实质区别的。
-
SRE团队的目标不再是 “零事故运行”,SRE团队和产品研发团队目标一致,都是在保障业务服务可靠性需求的同时尽可能地加快功能上线速度。
-
监控系统不应该依赖人来分析警报信息,而是应该由系统自动分析,仅当需要用户执行某种操作时,才需要通知用户。一个监控系统应该只有三类输出。
-
紧急警报(alert
-