计算机集群可靠性、可用性及相关技术解析
1. 系统可靠性与可用性基础概念
系统的可靠性通过平均故障间隔时间(MTTF)来衡量,它指的是系统(或系统组件)发生故障前的平均正常运行时间。而可维护性的衡量指标是平均修复时间(MTTR),即系统发生故障后修复并恢复到正常工作状态所需的平均时间。系统的可用性由以下公式定义:
[Availability = \frac{MTTF}{MTTF + MTTR}]
不同类型计算机系统的可用性和每年的停机时间如下表所示:
| 系统类型 | 可用性 (%) | 每年停机时间 |
| — | — | — |
| 传统工作站 | 99 | 3.6 天 |
| HA 系统 | 99.9 | 8.5 小时 |
| 容错系统 | 99.99 | 1 小时 |
| 容错系统 | 99.999 | 5 分钟 |
2. 故障类型
-
计划内与计划外故障
- 计划外故障 :系统因操作系统崩溃、硬件故障、网络断开、人为操作错误、停电等原因而损坏,需要修复才能恢复正常。
- 计划内停机 :系统本身未损坏,但为了进行升级、重新配置和维护而定期停止正常运行,也可能在周末或节假日停机。
-
瞬态与永久故障
- 瞬态故障 :暂时出现
超级会员免费看
订阅专栏 解锁全文
1197

被折叠的 条评论
为什么被折叠?



