一、容错计算概述
1.可靠性
系统可靠性(Reliability)的定义是指系统在一段时间内、在一定条件下无故障地执行指定功能的能力或可能性。通常用失效率表示。
2.可用性
可用性(Availability)是指计算机的使用效率,即系统在执行任务的任意时刻能正常工作的概率。
系统可用性用可用度来度量。系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示。
其计算方法为:A =平均无故障时间/ (平均无故障时间+平均修复时间)
3.可靠性VS可用性
A系统每年因故障中断十次,每次恢复平均要30分钟,B系统每年因故障中断2次,每次需6小时恢复。则A系统可用性比B系统高,但可靠性比B系统差。
可靠性的量化指标是周期内系统平均无故障运行时间,可用性的量化指标是周期内系统无故障运行的总时间。一般提高可靠性的同时,也同时提高了可用性。
4.提高可靠性的措施
避错(Fault Avoidance)。提高软硬件的质量,将出错率降至最低,理想情况是避免出错。
容错性(Fault Tolerance)。发展容错技术,使得在故障发生时,系统仍能继续运行。
5.容错性
容错主要依靠冗余设计来实现,它以增加资源的办法换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。
6.容错系统工作方式
1)自动侦测(