风险与可用性
在一个运行的系统中,出现风险是不可能避免的,而运维工程师的存着便是控制并解决风险。
书中提到构建百分百可靠的服务是不可取的,因为一个服务面向用户的不止是可靠,还有创新。当可靠性达到一定的数量级后,再花费大量的成本在可靠性上而忽略服务的创新,这种方式得不偿失。
书中还提到可用性为多少个‘9’这个概念

上面提到额外一个‘9’便是向100%可用性的数量级上的提高,但同样提高一个‘9’所花费的成本也是需要考虑的。
错误预算
指在服务在季度中可以接受多少不可靠性,允许出多少错。
错误预算出现的原因:(两个团队的关注点冲突)

其目的是平衡两个团队在关注点的冲突,给这个冲突提供一个缓冲区。
当这个缓冲区还未满时,研发可以提高创新速度。
当这个缓冲区快满时,研发就需要更多的考虑可靠性。
总结:
一个公司的最终目的便是盈利,在可用性和成本之间是需要一定的权衡。
用户对产品的体验也是需要在可靠性和创新之间权衡。
而用户对不同的产品敏感度也是不同的,在不同产品中的可靠性也需要权衡。
可靠性团队与创新团队的关注点冲突也需要权衡。

本文探讨了运维工程师如何控制和解决系统风险,指出过度追求可靠性可能会牺牲创新。书中提出,构建百分百可靠的系统并不经济,每个9的可用性提升都伴随着高昂成本。同时,错误预算是解决研发团队与可靠性团队关注点冲突的手段,允许一定量的不可靠性以平衡创新和稳定性。最后,强调公司在可用性与成本、用户体验与产品创新之间的权衡选择。
最低0.47元/天 解锁文章
586

被折叠的 条评论
为什么被折叠?



