自稳定系统:原理、算法与应用
1. 引言
在大型分布式系统中,计算元素的数量正在迅速增加。故障和扰动不再是灾难性的异常,而更像是预期中的事件。外部干预来恢复正常运行或进行系统配置变得越来越困难,并且未来这种情况可能会更糟。因此,系统必须内置恢复机制。
容错技术大致可分为两类:屏蔽型和非屏蔽型。某些应用需要屏蔽型容错,即故障的影响对应用完全不可见,如安全关键系统、一些实时系统和金融领域的敏感数据库应用。而对于其他应用,非屏蔽型容错就足够了。反馈控制是控制系统中使用了一个多世纪的非屏蔽型容错技术,当系统偏离期望状态时,探测器会检测到偏差并发送纠正信号,使系统恢复到期望状态。回滚恢复是另一种非屏蔽型容错(称为向后错误恢复),它依赖于在稳定存储中保存中间状态或检查点。而稳定化(也称为自稳定)是一种不依赖于任何数据存储完整性的非屏蔽型容错,它不尝试恢复丢失的计算,但保证最终能恢复到良好的配置,因此被称为向前错误恢复。
稳定化系统旨在容忍可能以不可预测方式损坏数据内存的瞬态故障,但排除程序代码的故障。程序代码充当恢复引擎,帮助从瞬态故障可能导致的任何临时配置中恢复正常行为。当故障不频繁且临时故障可接受,并且平均故障间隔时间(MTBF)远大于平均修复时间(MTTR)时,稳定化提供了一种解决方案。
分布式系统的所有可能配置或行为可分为两类:合法和非法。非反应式系统的合法配置通常由系统全局状态的不变量表示。例如,在网络路由中,网络的合法状态是指一对节点之间的路由中没有循环;在复制数据库中,合法配置是指所有副本都相同。在反应式系统中,合法性不仅由状态谓词决定,还由行为决定。例如,令牌环网络在以下情况下处于合法配置:(i)网络中恰好有一个令牌;(ii)在系统的无限行为中,每个进程无
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



