站点可靠性工程:关键要点与实践指南
1. 好奇心:SRE 的核心特质
好奇心是众多站点可靠性工程师(SRE)所共有的特质。以 1969 年阿波罗 12 号发射时被闪电击中的事件为例,当时火箭发射后两次遭闪电袭击,导致电力浪涌、燃料电池断开和电压下降,指挥舱内警报齐鸣,休斯顿的遥测读数混乱。在这紧急且未知的情况下,工程师约翰·亚伦提出了“try SCE to Aux”的建议,最终解决了问题。原来,一年前他在阿波罗舱模拟器中遇到类似遥测读数混乱的情况时,没有重置模拟器,而是通过不断尝试,发现将信号调节电子系统(SCE)切换到辅助设置可以在低电压条件下恢复遥测。他将此归功于“对事物如何工作以及为何工作的自然好奇心”。
对于 SRE 而言,好奇心不仅适用于技术系统,还包括对人的好奇。因为在工作中,需要与不同团队合作创建有意义的服务水平目标(SLO),并应对各种事件,只有保持好奇心,才能深入了解系统和人员,从而更好地解决问题。
2. 站点可靠性工程的六大核心步骤
当被问到 SRE 具体做什么时,很多人难以给出一个令人满意的答案。经过多年实践,发现 SRE 的工作主要围绕六个关键步骤展开:测量、分析、决策、行动、反思和重复。
- 测量 :测量并非简单的数据收集,而是要有明确的目标。例如,烤蛋糕时需要测量面粉的量,而不是随意收集。SRE 测量系统是为了判断服务是否满足用户需求,使数据具有实际意义。
- 分析 :在获得测量数据后,运用基本的统计和概率分析方法,借助数学家们积累的知识,从测量结果中尽可能多地获取信息。
- 决策 :基于测量和分析
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



