云技术中的关键策略与应对方法
1. 脆弱性的力量
很多人认为脆弱性等同于弱点,所以很少使用这个词。但实际上,在工作中展现脆弱性并非坏事。
有这样一个案例,在一个普通的周四,团队正在推进一个已开展数月的项目,虽有进展但仍任重道远。某刻,网络突然出现“系统故障”错误,网络仪表盘显示多处链路中断。团队紧急开启应急会议排查问题,有人怀疑是网络供应商的问题,也有人询问是否有人员进行了更改。
经过一番讨论,发现内部防火墙的规则集在当地时间10:17有更改。负责人怀疑是团队成员约翰所为,询问后约翰否认。后来网络工程师指出可能是迈克,迈克起初未主动承认,因为他害怕承担故障责任,试图自我说服自己的更改并非问题根源。但随着证据增多,他最终承认并开始纠正更改。
这个案例表明,隐藏错误并非脆弱性,真正的脆弱性是勇于承认错误。如果大家在面对故障时都秉持“这可能是我造成的”态度,团队合作会更高效。因为故障会影响整个团队,而非仅犯错者,开放透明能更快解决问题并防止更多故障发生。优秀的团队不会相互隐瞒,而是共同协作、共担责任。脆弱性不是弱点,而是能为团队带来力量的优点。
2. 服务级别目标(SLOs)基础
老板或产品经理常希望系统完美运行,但云工程师清楚他们可能不愿为此支付高昂成本,而且实现完美服务也几乎不可能。服务级别目标(SLOs)能帮助管理层轻松理解可靠性、创新速度和成本之间的权衡关系。
2.1 什么是SLOs
SLOs是基于客户满意度的云服务关键绩效指标,它定义了为避免客户不满所需达到的精确服务水平。以可用性为例,通常用“nines”来衡量基础设施的可用时间。如达到四个“nines”(99.99%
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



