计算机系统知识之可靠性
1、计算机可靠性概述
计算机系统的硬件故障通常是由元器件的失效引起的。对元器件进行寿命试验并根据实际资料统计得知,元器件的可靠性可分成3个阶段。在第一阶段开始阶段,元器件的工作处于不稳定期,失效率较高;在第二阶段,元器件进入正常工作期,失效率最低,基本保持常数;在第三阶段,元器件开始老化,失效率又重新提高,这就是所谓的“浴盆曲线”。因此,应保证在计算机中使用的元器件处于第二阶段。在第一阶段应对元器件进行老化筛选,而到了第三个阶段,则淘汰该计算机。
计算机系统的可靠性是指从它开始运行(t=0)到某时刻 t 这段时间内能正常运行的概率,用R(t)表示。所谓失效率,是指单位时间内失效的元件数与元件总数的比例,用λ表示,当λ为常数时,可靠性与失效率的关系为
R(t) = e-λt
典型的失效率与时间的关系曲线如下图所示:
两次故障之间系统能正常工作的时间的平均值称为平均无故障时间(MTBF),即
MTBF=1/λ
通常用平均修复时间(MTRF)来表示计算机的可维修性,即计算机的维修效率,指从故障发生到机器修复平均所需要的时间。计算机的可用性是指计算机的使用效率,它以系统在执行任务的任意时刻能正常工作的概率A来表示,即
A = M T B F M T B F + M T R G A = \frac{MTBF}{MTBF + MTRG} A=MTBF+MTRGMTBF