纳米计算中的缺陷与故障管理技术
1. 纳米计算可靠性概述
在纳米计算领域,由于器件的微小尺寸和复杂特性,缺陷和故障是不可避免的问题。为了提高系统的可靠性,需要综合运用多种技术,从器件到应用层面进行优化。有些应用本身可能具有一定的缺陷或容错能力,但大多数研究的技术集中在架构层面。为了在给定或最小成本下最大化基于纳米级器件的系统可靠性,可能需要结合不同抽象层次的技术。例如,如果应用本身能够处理数据中的一定程度的噪声,那么就不需要极高的硬件可靠性,此时使用过度的冗余可能并不划算。
2. 传统容错技术
2.1 三重和 N 模冗余
- 三重模冗余(TMR) :使用三个相同硬件副本,输入相同。理想情况下,若所有模块无缺陷或故障,输出相同。假设运行中最多只有一个模块有缺陷或故障,通过多数表决电路选择最常见的输出。单表决器的 TMR 实现简单,但会增加电路面积和功耗,降低电路速度。为提高可靠性,可使用三个表决器,避免表决器成为单点故障。
- N 模冗余(NMR) :是 TMR 的推广,使用 N 个硬件副本(N 为奇数),通过多数表决方案确定输出。与 TMR 相比,NMR 能在 ⌊(N/2)⌋ 个模块存在多个缺陷或故障时正确计算输出,也可利用冗余表决器降低系统因单个表决器故障而失效的概率。
- 级联 NMR :有多种实现方式。一种是复制 TMR - 表决器组合并增加多层表决,可提高系统容错能力,但会增加电路资源和延迟,且随着级联层数增加,表决器的可靠性影响更大。另一种是将硬件划分为子模块,对这些子模块应用 N
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



