17、自稳定系统：原理、算法与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/y4z5a6b7/article/details/154460439

自稳定系统：原理、算法与应用

1. 引言

在大型分布式系统中，计算元素的数量正在迅速增加。故障和扰动不再是灾难性的异常，而更像是预期中的事件。外部干预来恢复正常运行或进行系统配置变得越来越困难，并且未来这种情况可能会更糟。因此，系统必须内置恢复机制。

容错技术大致可分为两类：屏蔽型和非屏蔽型。某些应用需要屏蔽型容错，即故障的影响对应用完全不可见，如安全关键系统、一些实时系统和金融领域的敏感数据库应用。而对于其他应用，非屏蔽型容错就足够了。反馈控制是控制系统中使用了一个多世纪的非屏蔽型容错技术，当系统偏离期望状态时，探测器会检测到偏差并发送纠正信号，使系统恢复到期望状态。回滚恢复是另一种非屏蔽型容错（称为向后错误恢复），它依赖于在稳定存储中保存中间状态或检查点。而稳定化（也称为自稳定）是一种不依赖于任何数据存储完整性的非屏蔽型容错，它不尝试恢复丢失的计算，但保证最终能恢复到良好的配置，因此被称为向前错误恢复。

稳定化系统旨在容忍可能以不可预测方式损坏数据内存的瞬态故障，但排除程序代码的故障。程序代码充当恢复引擎，帮助从瞬态故障可能导致的任何临时配置中恢复正常行为。当故障不频繁且临时故障可接受，并且平均故障间隔时间（MTBF）远大于平均修复时间（MTTR）时，稳定化提供了一种解决方案。

分布式系统的所有可能配置或行为可分为两类：合法和非法。非反应式系统的合法配置通常由系统全局状态的不变量表示。例如，在网络路由中，网络的合法状态是指一对节点之间的路由中没有循环；在复制数据库中，合法配置是指所有副本都相同。在反应式系统中，合法性不仅由状态谓词决定，还由行为决定。例如，令牌环网络在以下情况下处于合法配置：（i）网络中恰好有一个令牌；（ii）在系统的无限行为中，每个进程无