摩尔定律带来的不只是快,同样推动了芯片架构、应用和工具的质变。
FPGA也不例外。
自从上世纪80年代发明以来,除了性能增长之外,成本和能耗降低1000倍以上,容量增长了1万倍以上。
一直走在异构计算、硬件加速最前沿的EDA辅助验证市场,更为明显。
1988年的第一台现代硬件仿真工具(Emulation),使用赛灵思XC3060组装,单FPGA只有6000个逻辑单元(Logic Cell)。
到最新一代的旗舰芯片VP1902,单芯片容量高达18.9M个LCs,超过初代的3万倍。
除了仿真加速应用,如今已深入到国民经济的各个角落。也是国产化替代率先取得突破的细分赛道。
实际应用情况,要比技术扩展带来的简单的容量增长,复杂得多,也有趣得多。
在硬件加速一切的异构计算时代,也从长期的偏安一隅,正式走上前台。延续到现在的AI平民化,万物智能且互相连接的可编程世界。
从云到端,从地面到太空,各个行业,都在用芯片构造更加智能的二进制数字世界。
FPGA也将帮助人们把对未来生活的美好想象,加速成为现实。
01
避无可避的软错误
芯片是信息系统的基石。
所有的数字芯片,都会存在软错误或软失效。
虽然会导致硬件电路出现功能故障,但如果“重启”,系统将恢复正常运行。这种短暂的、瞬时的功能故障,通常称之为软错误。
对于ASIC芯片,主要是门级电路(Gates)、寄存器(DFF)中01数值的翻转,由单粒子效应引发的瞬态故障(SET)。
对于FPGA芯片,还需要额外关注直接配置硬件电路的存储器(CRAM)中01数据,受单粒子效应影响被动发生改变,可能引发的系统异常。
FIT Rate Swap: ASIC vs. FPGAs
Source:Soft Error Derating, or Architectural Vulnerability, Xilinx, 2011
作为价格亲民的ASIC,即便出现功能故障,理论上甚至都无需重启。只需保持在线刷新,就可让FPGA恢复正常运行。
可靠性不易被直接感知,可用性则是用户的真实体验。
发生故障后的平均修复时间,决定可用性。
1FIT等于每10亿小时系统失效1次。
常见的可靠性指标之间简单换算关系:
1FIT=1 failure per billion hours
1000 FIT~ 100 years MTBF
Device (raw) FIT = number of MB X FIT/Mb
在对可靠性要求最高的航天领域,赛灵思公司的第五代FPGA,即便只是军用级的Virtex-5QV,器件层面的可靠性指标,也非常可观。
相对最易发生翻转的配置存储器,在辐照试验环境下,用每个bit每天典型的翻转概率,换算成平均无故障时间,也将长达75天。
Radiation Tolerances
Source:Radiation-Hardened,Space-Grade Virtex-5QV Family Overview
但是FPGA的应用设计,众所周知,也是出了名的设计难度大。
不仅是赛灵思的芯片,现在想要成功和快速实现一个高可靠的应用设计,可能需要正确的组合。
在主打高性能的赛灵思,与高可靠立足江湖的Microsemi公司之外,许多中小规模FPGA的供应商,也在付诸行动。
Source:A Lattice Semiconductor White Paper,2024
按照赛灵思公司的观点,即便芯片的可靠性很差,但能够在短时间内修复,系统可能仍然达到预期设计目标;
反之,虽然可靠性很好,但如果每次发生故障,都修复需要技术人员现场支持,则系统可能永远无法实现其预定目标。
赛灵思的SEM IP,阿尔特拉的故障注入调试器,或者其它第三方公司的故障注入测试工具,均可胜任该任务。
用户得以在日常开发过程中,能够以数天或者数周时间进行迭代