计算机可靠性解析
1. 引言
在计算机领域,估算电子系统或子系统的可靠性至关重要。不过,即便计算过程完全正确,也无法保证某一特定电子设备能在任意时长内正常工作。但这些计算能为设备在给定时间段内按预期运行的概率提供合理参考。估算计算机系统可靠性的首要步骤是确定构成系统的各个组件(如电阻器、电容器、集成电路和连接器等)的故障可能性,进而用于系统整体分析。
2. 故障、缺陷和错误的定义
- 故障(Failure) :当系统或组件未按预期运行时,就会发生故障。例如,大型集成电路中晶体管的基极 - 发射极短路,或者焊点因振动而开路。组件故障可能引发缺陷,进而导致错误,最终可能致使系统故障。
- 缺陷(Fault) :
- 可能是组件故障的外在表现,也可能是设计缺陷。组件故障可能由内部物理现象或外部环境影响(如电磁场或电源变化)引起。设计缺陷可分为两类:
- 第一类是因使用超出额定规格的组件导致的,可通过仔细的设计检查消除。
- 第二类常见于大型数字电路(如计算机系统中的电路),是由于设计者未考虑系统运行期间可能出现的所有逻辑条件。软件尤其容易出现此类设计缺陷。
- 缺陷可分为永久性和临时性。永久性缺陷如组件因物理故障导致的短路或开路;临时性缺陷又可进一步分为两类:
- 瞬态故障(Transient Faults),通常由α粒子辐射或电源变化等引起,大型随机存取存储器电路特别容易出现此类故障,且并非由硬
- 可能是组件故障的外在表现,也可能是设计缺陷。组件故障可能由内部物理现象或外部环境影响(如电磁场或电源变化)引起。设计缺陷可分为两类:
超级会员免费看
订阅专栏 解锁全文
16万+

被折叠的 条评论
为什么被折叠?



