可重构多核嵌入式系统硬件可靠性的进展
1. 多核架构与可重构处理器概述
随着 Dennard 缩放定律的终结,对性能提升的持续需求使得拥有数十个核心的多核架构成为主流,甚至数百、数千核心的架构也已被研究。典型的片上网络(NoC)多核架构由多个通过 NoC 互连的瓦片组成,包括处理存储请求和外围通信的内存瓦片、I/O 瓦片,以及包含实际核心和缓存的计算瓦片。除了同质处理核心,瓦片还可包含一个或多个异质核心,异质性有助于针对特定工作负载优化系统,提高效率。
基于现场可编程门阵列(FPGA)的运行时可重构处理器是传统处理器架构的有前途的补充。它由通用处理器和可重构结构组成,可重构结构被划分为多个可在运行时重新配置的区域,用于实现加速计算密集型功能的加速器,以加快应用程序的执行。然而,现代 FPGA 制造工艺的进步带来了更高的晶体管密度、性能和更低的能耗,但也面临着可靠性问题,尤其是可重构结构容易受到环境因素导致的瞬态错误影响。
2. 单事件翻转(SEU)及其影响
电离粒子(如辐射产生的粒子)会在纳米电子设备中引发瞬态电流脉冲,改变逻辑信号的值,这种单事件翻转(SEU)威胁着基于 SRAM 的可重构结构的可靠性,导致软错误。电离辐射量(特别是宇宙射线引发的中子辐射)与海拔、地磁位置和太阳活动密切相关。例如,从海平面到商业航班巡航高度(约 10 公里),中子通量增加 500 倍。
SEU 对电路的影响取决于粒子撞击的位置。在组合逻辑节点产生的电流脉冲会导致瞬态电压变化,可能传播到输出端导致错误,也可能被电路的下游逻辑屏蔽;若寄存器受影响,存储的逻辑值可能翻转,导致数据路径或有限状态机出现错误。对于 FPGA 上的电路,配置内存中的软错误可能改变电