现代SRE领域的关键洞察与发展趋势
1. 软件安全视角的新思考
在软件系统运维中,任何负责维护服务的SRE(Site Reliability Engineer)都难免会遭遇糟糕的一天。事件发生后,进行事后分析是常见的做法。不过,如今在安全概念以及如何从事件中学习方面有了新的关注点。
1.1 拥抱复杂性
过去15年,网络级分布式系统的兴起让人们重新关注复杂性科学对我们领域的真正影响。虽然很多SRE常提及“复杂性”这个词,但Mark Burgess在《In Search of Certainty》中关于配置管理的工作,为我们认识到系统(尤其是云环境中的系统)与量子物理有更多共性奠定了基础,而非传统的因果反应物理。
1.2 量子特性的影响
一旦我们接受系统复杂性的本质,就会对传统事件分析中依赖的许多模型和方法提出质疑。线性模型已无法很好地描述事件,“根本原因”“五个为什么”和最佳实践等概念也不再适用。在复杂的现实世界中,这些传统概念已失去作用。
1.3 重新定义责任归咎
很多团队常将事件归因于“人为错误”,但在没有线性关系的复杂世界里,我们应摒弃用“人为错误”来解释事件的观念。它本质上只是我们停止追问问题的一个借口。如今,无责回顾逐渐增多,但由于归咎他人是人类应对压力的固有反应,现在的重点正从追求无责(这几乎不可能)转向意识到归咎的存在(工程师常自责),并在事件分析中以积极的方式克服它。
1.4 系统中的人员因素
在描述复杂系统时,“社会技术”这一修饰词的使用越来越多。这表明SRE的工作不仅仅是编写代码、管理数据和维护机器,人在系统的成功与失败中起着直
超级会员免费看
订阅专栏 解锁全文
73

被折叠的 条评论
为什么被折叠?



