1、站点可靠性工程:关键要点与实践指南

站点可靠性工程:关键要点与实践指南

1. 好奇心:SRE 的核心特质

好奇心是众多站点可靠性工程师(SRE)所共有的特质。以 1969 年阿波罗 12 号发射时被闪电击中的事件为例,当时火箭发射后两次遭闪电袭击,导致电力浪涌、燃料电池断开和电压下降,指挥舱内警报齐鸣,休斯顿的遥测读数混乱。在这紧急且未知的情况下,工程师约翰·亚伦提出了“try SCE to Aux”的建议,最终解决了问题。原来,一年前他在阿波罗舱模拟器中遇到类似遥测读数混乱的情况时,没有重置模拟器,而是通过不断尝试,发现将信号调节电子系统(SCE)切换到辅助设置可以在低电压条件下恢复遥测。他将此归功于“对事物如何工作以及为何工作的自然好奇心”。

对于 SRE 而言,好奇心不仅适用于技术系统,还包括对人的好奇。因为在工作中,需要与不同团队合作创建有意义的服务水平目标(SLO),并应对各种事件,只有保持好奇心,才能深入了解系统和人员,从而更好地解决问题。

2. 站点可靠性工程的六大核心步骤

当被问到 SRE 具体做什么时,很多人难以给出一个令人满意的答案。经过多年实践,发现 SRE 的工作主要围绕六个关键步骤展开:测量、分析、决策、行动、反思和重复。
- 测量 :测量并非简单的数据收集,而是要有明确的目标。例如,烤蛋糕时需要测量面粉的量,而不是随意收集。SRE 测量系统是为了判断服务是否满足用户需求,使数据具有实际意义。
- 分析 :在获得测量数据后,运用基本的统计和概率分析方法,借助数学家们积累的知识,从测量结果中尽可能多地获取信息。
- 决策 :基于测量和分析

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值