混沌工程:超越传统故障分析的新路径
1. 机电系统故障预期与软件的影响
在机电系统中,目标是“消除不可接受的风险”。从机电系统的角度来看,系统同时经历独立的多点故障是极其不可能的。故障模式与影响分析(FMEA)的自我约束在这种情况下是完全合理的,因为不太可能有两个完全独立的机械或电气组件会同时随机失效,而且这种重叠故障的结果往往是不可恢复且灾难性的,不值得花费精力去分析,就像评估因服务器遭雷击、数据中心洪水和小行星撞击地球导致认证系统离线的影响一样,认证系统离线这一事实变得无关紧要,且可能对此无能为力。
然而,软件的大量使用改变了这种情况。与单个电气组件故障不同,软件问题像传染病一样容易传播,这使得在评估故障模式、影响、严重程度、可能性和可检测性时,很难甚至无法保证准确性。而混沌工程通过实验和探索提供的实证验证,在这方面能带来新的见解。
2. FMEA 与混沌工程的关联
FMEA 的一些流程与混沌工程的原则有对应关系:
| FMEA 流程 | 混沌工程原则 |
| — | — |
| 定义范围和功能 | 假设稳态 |
| 头脑风暴可能出现的问题 | 改变现实世界的事件 |
| 为严重程度、可能性分配分数 | 最小化影响范围 |
FMEA 过程为深入研究和创建实验以验证假设提供了一些指导和优先级。查看最高风险优先级数字,引入混沌实验来探索假设和系统中潜在的实际风险可能会获得最大价值。
但执行 FMEA 过程会有大量的开销和繁琐的步骤。还有其他有价值的方法可用于确定实验点,以最大化信息和见解。我们可以反思设计和工程实现的方式,以及在这个过程中关键依赖的假设和保证。
超级会员免费看
订阅专栏 解锁全文
1090

被折叠的 条评论
为什么被折叠?



