多核处理器的自测试技术综述
1. 引言
随着纳米技术的发展,多核微处理器芯片的复杂度和集成密度达到了前所未有的高度。如今,现代多核微处理器芯片上集成了数十亿个晶体管,且这一趋势仍在持续增长,推动了单芯片多核系统的发展。然而,这种深度技术缩放也带来了一个副作用,即系统对不可靠组件的脆弱性加剧。除了制造过程中可能出现的晶体管静态变化(且预计会变得更糟),当前和未来的技术还面临动态变化的问题。单事件翻转(软错误)也是一个令人担忧的问题,直接影响系统的可靠性。此外,由于极端的工作条件,硬件对老化(与时间相关的器件退化)和磨损效应的敏感性增加,这可能导致永久性系统故障。
传统的一次性工厂测试已不足以保证系统在实际应用中的可靠性。因此,需要采用能够在系统整个生命周期内检测、缓解和/或从故障中恢复的机制,以保护系统免受不良行为的影响。目前,已经提出了几种容错技术来在芯片正常运行期间检测故障,这些技术大致可分为两类:基于容错机制的并发方法(如冗余技术)和非并发的周期性在线测试。
2. 在线故障检测方法分类
在线故障检测技术可大致分为非自测试和自测试两类方法,具体分类如下:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(在线故障检测):::process --> B(非自测试方法):::process
A --> C(自测试方法):::process
B --> B1(冗余执行):::process
B --> B2(动态验证)