应用管理与现代服务架构
1. 应用管理原则
在应用管理中,有一个重要的理念是“Fly two mistakes high”,这意味着不能只关注表面的故障模式,而要深入挖掘下一层的潜在问题。要确保不存在依赖故障模式,并且所建立的恢复机制能够在故障发生时真正恢复系统。
同时,千万不能忽视问题。问题不会自行消失,它们可能会干扰你预期的可用性计划。即使出现故障的只是备份数据库,也不意味着修复它不是关键任务。要像对待主系统一样珍视备份和冗余系统,因为它们同样重要。正如有人常说的:“如果它与生产环境相关,那它就是生产环境的一部分。” 不要对生产环境中的任何事物掉以轻心。
识别分层或依赖故障并非易事,需要花时间审视自身情况并解决这些问题。
2. 航天飞机系统的启示
美国航天飞机计划是一个独立、冗余、多级错误可恢复系统的绝佳范例。航天飞机的主计算机系统由五台计算机组成,其中四台是相同的计算机,运行相同的软件,而第五台则不同。
在任务的关键阶段(如发射和着陆),四台主计算机运行完全相同的程序,它们接收相同的数据,理论上应产生相同的结果。这四台计算机不断进行计算并比较结果,如果有一台或多台计算机产生不同的结果,它们会进行投票来确定正确的结果。获胜结果将被采用,而产生失败结果的计算机将在飞行期间关闭。航天飞机在仅开启三台计算机的情况下仍能成功飞行,仅两台计算机正常运行时也能安全着陆。
但如果四台计算机无法达成一致,可能是因为多次故障导致多台计算机关闭,或者主软件中的严重故障同时影响了所有四台计算机。这时,第五台计算机就会发挥作用。它通常处于闲置状态,但必要时可以执行与其他四台相同的计算。关键在于它运行的软件,这是一个由
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



