一文看透SEU软错误

图片

摩尔定律带来的不只是快,同样推动了芯片架构、应用和工具的质变。

FPGA也不例外。

自从上世纪80年代发明以来,除了性能增长之外,成本和能耗降低1000倍以上,容量增长了1万倍以上。

一直走在异构计算、硬件加速最前沿的EDA辅助验证市场,更为明显。

1988年的第一台现代硬件仿真工具(Emulation),使用赛灵思XC3060组装,单FPGA只有6000个逻辑单元(Logic Cell)。

到最新一代的旗舰芯片VP1902,单芯片容量高达18.9M个LCs,超过初代的3万倍。

除了仿真加速应用,如今已深入到国民经济的各个角落。也是国产化替代率先取得突破的细分赛道。

实际应用情况,要比技术扩展带来的简单的容量增长,复杂得多,也有趣得多。

在硬件加速一切的异构计算时代,也从长期的偏安一隅,正式走上前台。延续到现在的AI平民化,万物智能且互相连接的可编程世界。

从云到端,从地面到太空,各个行业,都在用芯片构造更加智能的二进制数字世界。

FPGA也将帮助人们把对未来生活的美好想象,加速成为现实。

01

避无可避的软错误

芯片是信息系统的基石。

所有的数字芯片,都会存在软错误或软失效。

虽然会导致硬件电路出现功能故障,但如果“重启”,系统将恢复正常运行。这种短暂的、瞬时的功能故障,通常称之为软错误。

对于ASIC芯片,主要是门级电路(Gates)、寄存器(DFF)中01数值的翻转,由单粒子效应引发的瞬态故障(SET)。

对于FPGA芯片,还需要额外关注直接配置硬件电路的存储器(CRAM)中01数据,受单粒子效应影响被动发生改变,可能引发的系统异常。

FIT Rate Swap: ASIC vs. FPGAs

图片

Source:Soft Error Derating, or Architectural Vulnerability, Xilinx, 2011

作为价格亲民的ASIC,即便出现功能故障,理论上甚至都无需重启。只需保持在线刷新,就可让FPGA恢复正常运行。

可靠性不易被直接感知,可用性则是用户的真实体验。

发生故障后的平均修复时间,决定可用性。

1FIT等于每10亿小时系统失效1次。

常见的可靠性指标之间简单换算关系:

1FIT=1 failure per billion hours

1000 FIT~ 100 years MTBF

Device (raw) FIT = number of MB X FIT/Mb

图片

在对可靠性要求最高的航天领域,赛灵思公司的第五代FPGA,即便只是军用级的Virtex-5QV,器件层面的可靠性指标,也非常可观。

相对最易发生翻转的配置存储器,在辐照试验环境下,用每个bit每天典型的翻转概率,换算成平均无故障时间,也将长达75天。

Radiation Tolerances

图片

Source:Radiation-Hardened,Space-Grade Virtex-5QV Family Overview

但是FPGA的应用设计,众所周知,也是出了名的设计难度大。

不仅是赛灵思的芯片,现在想要成功和快速实现一个高可靠的应用设计,可能需要正确的组合。

在主打高性能的赛灵思,与高可靠立足江湖的Microsemi公司之外,许多中小规模FPGA的供应商,也在付诸行动。

图片

Source:A Lattice Semiconductor White Paper,2024

按照赛灵思公司的观点,即便芯片的可靠性很差,但能够在短时间内修复,系统可能仍然达到预期设计目标;

反之,虽然可靠性很好,但如果每次发生故障,都修复需要技术人员现场支持,则系统可能永远无法实现其预定目标。

赛灵思的SEM IP,阿尔特拉的故障注入调试器,或者其它第三方公司的故障注入测试工具,均可胜任该任务。

用户得以在日常开发过程中,能够以数天或者数周时间进行迭代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值