面向物联网的超低功耗设计与硬件安全:基于新兴技术
摘要
本文针对物联网(IoT)应用,综述了数字和混合信号模数转换器(ADC)电路的重要低功耗设计技术。介绍了超越CMOS的新兴低压逻辑器件和非易失性存储器(NVM)。此外,回顾了能量受限的硬件安全问题。重点介绍了基于轻量级加密的相关功耗分析、利用隧穿场效应晶体管(FET)的逐次逼近寄存器(SAR)ADC安全、利用硅纳米线FET的逻辑混淆以及全自旋逻辑器件。进一步讨论了采用生物启发式神经形态计算的新型超低功耗设计以及脉冲神经网络安全。
关键词 :模数转换器;差分功耗分析;新兴技术;硬件安全;神经形态计算;侧信道攻击;木马;隧穿场效应晶体管;超低功耗
1. 引言
有线和无线传感器网络的发展为物联网(IoT)奠定了坚实的基础。预计到2020[1],约有300亿台物联网设备将连接到互联网。这些设备包括传感器、射频识别标签、智能恒温器以及智能手机和设备。这些设备将能够感知、处理和控制物体物理世界中的事件。最终,物联网将引领我们进入万物互联(IoE)时代,信息虚拟世界将与物体物理世界相融合。
物联网融合了来自多样化背景的设备。这些设备在尺寸、存储、能耗、计算能力、数据速率及其他性能指标方面各不相同。通过嵌入其中的传感器和执行器,实现了它们之间的无缝且可互操作的通信。这些微型传感器为物联网范式中每个参与设备提供唯一的标识符。通过将传感器与物理系统集成,拓展了当今互联网的范围和可扩展性。然而,这对应用开发者提出了更高要求,因为传感器体积微小、能量匮乏,并且在计算和存储容量上受限。由于设备具有特殊性质,在物联网系统中设计安全解决方案十分困难且复杂。由于传感器计算能力受限且可在全球任何位置部署,因此容易受到网络攻击,从而成为物联网系统中的最薄弱环节。
本综述论文介绍了面向能量受限的物联网设备的低功耗设计与安全保证。第2节讨论了当前芯片应用中的关键低功耗设计技术。第3节阐述了超越CMOS(超越摩尔)的逻辑和存储器件中的新兴技术,解释了陡亚阈值斜率晶体管以及阻变、相变和自旋转移矩存储器(STT)。第4节结合了利用新兴隧穿场效应晶体管(TFET)技术实现逻辑门的近阈值低功耗技术,以及逐次逼近寄存器(SAR)模数转换器(ADC)的设计。此外,还介绍了噪声整形(NS)技术用于增加SAR ADC的有效位数。本节还介绍了用于无监督学习与识别的受生物启发的超低功耗神经形态计算。第5节重点讨论了各种硬件安全问题,包括重要的加密技术、侧信道攻击/防御、针对逆向工程/伪造的逻辑锁定/分拆制造以及伪装布局。第6节展示了新兴技术与轻量级加密在对抗侧信道攻击的相关功耗分析中的应用、硅纳米线多态门、用于欺骗与逻辑锁定的全自旋逻辑器件,以及用于特洛伊木马防范措施的TFET安全SAR ADC设计。最后,第7节对本文工作进行了总结。
2. 数字、模拟和混合信号电路中的关键低功耗技术
2.1. 数字电路
CMOS器件缩放已持续数十年,以提供更快的切换速度和更低的功耗。已采用多种促进技术,例如高κ/金属栅极[2,3]和鳍式场效应晶体管[4,5]。由于互补金属氧化物半导体逻辑的动态功耗与供电电压VDD的平方成正比,VDD的尺寸缩小为限制集成电路(IC)的功耗提供了一种途径。然而,当互补金属氧化物半导体逻辑在亚阈值电压水平下工作时,漏电功耗和电路延迟会显著增加[6]。近阈值操作可优化功耗与性能权衡(见图1)。此外,使用硅通孔(TSVs)的集成电路三维(3D)集成可以提升芯片性能[7]。
能效是现代数字系统中的一个主要问题。高计算需求促使学术界和工业界为多核和众核系统提供体系结构方法,以针对特定应用领域提升系统级能效。诸如动态电压频率调节(DVFS)[8]之类的节能方法在应用中被广泛使用。DVFS根据运行时的工作负载来调节供电电压和时钟频率。在DVFS中,通过调整处理器电压和频率来控制功耗。通过电压和频率调节实现功耗降低的技术已在商用芯片[9]中实现。
多阈值(MT)CMOS技术通过利用高速、低VT晶体管用于逻辑单元,以及低漏电、高VT器件用于休眠晶体管[10],提供了一种简单而有效的电源门控结构。休眠晶体管将逻辑单元与电源和/或地断开,以降低待机模式下的漏电流(见图2)。更准确地说,多阈值CMOS使用低漏电流的NMOS(PMOS)晶体管作为下拉(上拉)开关,在电路待机模式下断开地(电源)与设计部分的连接。当多阈值CMOS电路从睡眠模式切换到激活模式时,会产生大量的浪涌电流从电源流向地。另一方面,当MT CMOS电路从睡眠模式切换到激活模式时,需要一定时间(唤醒延迟)才能使电路恢复正常功能并以全性能水平开始工作。如果没有某种常开锁存器,MTCMOS电路在进入睡眠模式时会丢失其内部状态。由于MTCMOS电路存在大量浪涌电流和较大的唤醒延迟,因此对于较短的待机周期,将电路置于中间节能模式(称为昏睡模式)更为合适。原因是,从昏睡模式切换到激活模式的转换延迟远小于从睡眠模式唤醒所需的时间。此外,如果设计得当,昏睡模式下的电路可以保留待机前的内部状态。将电路置于昏睡模式的缺点是,与电路处于睡眠模式相比,其漏电流更大。
近年来,多核系统已成为计算机行业的标准。多核设计利用了计算密集型且高度并行的应用程序中的线程级平行性。能效是多核系统设计中最大的挑战之一,而并行线程间的工作负载不平衡是能效低下的来源之一。因此,动态电压频率调节(DVFS)可以在多核上节省能耗,但这些方法都假设多核系统中的每个核心仅包含一个硬件上下文,并且同一时间只能在一个核心上执行一个线程。然而,主流的多核系统正在向核心中支持同时多线程(SMT)的方向发展,现有的基于DVFS的技术无法有效实现最大节能。一种称为线程混洗的新技术被提出[11],该技术结合线程迁移和DVFS,以在支持SMT的多核系统上实现最大节能并保持性能。线程混洗在周期精确的 ×86多核系统中实现并进行仿真。实验表明,对于来自英特尔实验室选定的识别、挖掘与综合(RMS)应用,该技术在无性能损失的情况下实现了最高达56%的节能。
其他低功耗设计技术包括时钟门控[12],流水线架构[13],异步信号传输[14],和软硬件协同设计[15]。异步电路设计长期以来一直是设计者的关注点。异步电路的优点包括更低的峰值功耗、更低的电磁辐射(EMI)、系统间组件的自由互换性,并且对温度和工艺变化具有更强的鲁棒性[16]。异步电路,特别是准延迟无关异步电路,使用局部握手协议代替时钟来协调电路行为。准延迟无关电路的延迟无关性及其他独特特性,使得电源电压调节更加激进,能够在无需时序分析或额外控制开销的情况下实现电源关断[17]。异步电路能够在一个大的芯片上有效连接多个组件,以提高能效。
比较各种低功耗设计的权衡或额外要求,多阈值电压技术需要半导体工艺的支持,以实现具有不同阈值电压的MOSFET。异步电路由于增加了握手电路组件和双轨编码,可能会消耗更多的芯片面积。多核设计需要并行时钟树,并在不同核心之间增加硅片上的互连。动态电压频率调节需要片上直流‐直流转换器来实现电源电压调节。
除了低功耗移动计算外,无线通信中的节能对于物联网应用也非常重要。显然,高效的移动计算需要超低功耗系统设计[18]。为了实现无线系统的极低平均功率,通常会广泛采用占空比循环。其目标是将器件的“开启”时间减少到短暂的通信突发,然后在这些活跃时段之间使器件进入睡眠模式以降低功耗。
2.2. 模拟电路
模拟电路中的低压操作可能与数字电路大不相同。例如,当供电电压降低至MOSFET的近阈值电压时,过驱动电压(OV)或电压裕度受限,这会导致MOS晶体管截止频率出现显著的温度漂移,从而影响模拟电路的性能。为解决这一温度漂移问题,林和袁[19]采用最优过驱电压来降低温度敏感性。通过载流子迁移率与阈值电压的相互温度补偿,最佳偏置点使截止频率对温度变化不敏感,如图3所示。
图4展示了一个采用最优过驱电压技术的比较器。
2.3. 混合信号电路
物联网设备需要能够在任何时间、任何地点进行部署和访问,因此对传感、通信和计算都要求超低能耗。模数转换器是传感器接口中的关键构建模块之一,用于将模拟传感器输出转换为数字信号,以便进行后续的数字信号处理。大多数传感器节点的电源——如太阳能电池等能量收集装置——只能产生极低的输出电压,通常低于0.5伏特。因此,对于无线物联网应用而言,实现超低压和低功耗操作至关重要[20]。传感器的输出通常需要由具有中等分辨率和速度(1–1000 kHz)的模数转换器进行处理,同时信号电平通常也很小[21]。在这些低功耗应用中,模数转换器是最关键且功耗最高的模块。此外,使用隧穿场效应晶体管可以增强模拟电路性能[22]。
一种用于0.3至0.5伏特低电源电压(近阈值操作)的6位逐次逼近型模数转换器拓扑结构在[23]中被提出。该单端结构对电源噪声和共模电平漂移的抗干扰能力较差,因此需要使用低噪声低压差(LDO)稳压器和精确的电压基准来保证性能,但这会降低能效。在[23],中引入了全差分结构。全差分结构不仅可以提供两倍于ADC的输入输出摆幅,从而将对电源噪声的抑制能力提高6 dB,还能消除偶次谐波失真,显著提升模数转换器的有效位数(ENOB)。图5显示了6位SAR ADC的主要模块,包括数模转换(DAC)、比较器和控制逻辑。在图5中,Ci= 2Ci+1;C6= CC= 5 fF,DAC中使用的总电容为640 fF。为了实现电源电压的最大利用,正负电压参考分别为VDD和GND,VCM为VDD/2。由于采用全差分操作,电源电压上的噪声可以被抵消。此外,产生VCM的电路可以设计得较为粗略,以减小面积和功耗。输入信号通过场效应管开关进行采样。在此设计中,反馈开关也使用场效应晶体管实现,用于在VDD、GND和VCM之间切换。图6中的比较器基于强臂锁存器实现,以支持低功耗操作,并生成决策信号以控制SAR逻辑电路。SAR逻辑模块由基于场效应管的逻辑门组成,用于生成所有采样开关和反馈开关的时钟信号。
逐次逼近型模数转换器的时钟方案如图7a所示,其中CLK是外部时钟信号;CLK_COMP是比较器的时钟;CLKS 为采样时钟,CLKi 是控制Ci反馈开关的时钟,具体如图7b所示。采样周期为8个时钟周期,因此采样电路有足够的时间达到稳定状态。当采样时钟为高电平时,比较器被禁用,电容器底板连接到VCM。当采样时钟变为低电平时,电容阵列的上极板被隔离,比较器开始比较其上的电压。时钟i将在第i次决策完成后变为高电平,并将电容器Ci的底板切换至VDD或GND。在图7b中,时钟i被输入到一个非重叠时钟生成模块,以确保电容器Ci的底板不会同时连接到VCM和VDD(或GND)。信号VSVCMi、VSVDD和VSGND分别是用于控制开关的控制信号,用于将电容器Ci的底板连接到VCM、VDD和GND。VCOMP是比较器的输出电压,用于决定Ci的底板是切换到VDD还是GND。
时钟时序;(b)时钟生成逻辑)
由于基本限制及其相关的次级效应,逐次逼近型模数转换器的精度当分辨率超过10 [24]时,很难实现。kT/C噪声是采样的主要限制因素精度。对于中等分辨率模数转换器,实现足够低的最小电容采样噪声通常大于产生充分匹配所需的电容。此外,单位电容的数量随模数转换器的分辨率呈指数级增长,给布局匹配和寄生参数减小带来了很大困难。为解决这一问题,常用的方法是采用过采样技术以在带内获得更低的噪声功率谱密度。作为降低量化噪声的有效方法,噪声整形技术最近已在逐次逼近型ADC中得到验证[25,26]。然而,在这些研究中,噪声仅被整形为一阶传递函数,导致在低频处衰减有限且参数设计的自由度较小。采用隧穿场效应晶体管的二阶噪声整形Δ SAR ADC可比其一阶 counterpart 提供更少的量化噪声。
通过优化模数转换器的设计参数,积分器产生的噪声被衰减,从而降低了功耗和硅片面积。该逐次逼近型模数转换器是一种不包含任何噪声整形形式的零阶Sigma‐Delta调制器。因此,可以通过在信号路径[27]中插入滤波器来实现噪声整形。无源滤波器是超低功耗、超低压供电操作的合适选择。由于ADC的反馈路径主要由SAR算法决定,前馈Sigma‐Delta架构适用于NS Δ‐ SAR ADC。此外,由于输入到环路滤波器的信号仅为经过整形的量化噪声,环路滤波器对线性度的要求大大降低。因此,前馈架构可有效解决无源积分器中寄生电容的影响。二阶NS Δ‐ SAR ADC [28] 的信号流图如图8所示。
NS ∆Σ模数转换器的传递函数是
Dout(z)= Vin(z)+[1−(1−a1)z −1][1−(1−a2)z −1]
1+ Az−1+ Bz−2 [Q(z)+ D(z)] (1)
其中Q(z) 是量化噪声,D(z) 是抖动信号,且A和B由以下给出
B= 1−a1 −a2+ a1a2 −(a1b1 −a1a2b1)g1+ a1a2b1b2g2
(2)
二阶 ∆Σ SAR ADC采用a1= 0.11,a2= 0.25的噪声传递函数(NTF)幅值与先前发表的结果在图 9中进行了比较。从图9可以看出,与一阶∆Σ ADC结果相比,二阶噪声整形在低频处可额外提供19 dB的衰减。
基于所提出的传递函数原理,实现了一种混合型∆Σ SAR模数转换器。设计的模数转换器包含一个6位SAR模数转换器[23]和一个二阶无源积分器。增加了一次DAC阵列Cc的额外切换,使得残差基于数字估计的完整分辨率。此外,量化器和反馈DAC在 ∆Σ逐次逼近型模数转换器中使用相同的电容阵列。因此,DAC失配误差传递函数(ETF)恒为1,失配误差可在数字域中轻松估计并校准。采样频率为1.38兆赫兹,最大输入带宽为43.1千赫兹。过采样率(OSR)为16。模数转换器的原理图如图10所示。在图10中,时钟生成电路和SAR逻辑模块是电路的主要数字部分,根据比较器的输出生成控制位。
3. 新兴技术
进入当今的智能社会,信息和数据量呈爆炸式增长。随着这一增长,对低功耗、高性能集成电路的需求也随之增加。摩尔定律的放缓加剧了对超越CMOS的下一代晶体管和存储技术的探索。
3.1. 新兴逻辑器件
3.1.1. 硅纳米线场效应晶体管
在多种纳米尺度场效应晶体管器件中,在正常偏置条件下可观察到n型和p型载流子的叠加。这种现象称为双极性,存在于硅[29],碳纳米管(CNTs)[30],和石墨烯[31]中。通过控制这种双极性,我们可以调节器件极性。具有可控制极性的晶体管已在碳纳米管场效应晶体管[32],硅纳米线(SiN W)场效应晶体管[33,34],和石墨烯场效应晶体管[35]中通过实验实现。通过增加一个栅极,这些场效应晶体管可通过调节源漏结处的肖特基势垒来实现操作。图11所示的新型器件是一种堆叠式硅纳米线场效应晶体管,具有两个全栅环绕电极[35,36]。堆叠式全栅环绕硅纳米线是鳍式场效应晶体管结构的自然演进,能够对沟道实现更好的静电控制,从而具备更优的可扩展性[36]。
在硅纳米线(SiNW)晶体管中,控制栅极(CG)电极以传统方式工作,根据栅极电压控制器件的导通与关断。第二个电极称为极性栅极(PG),用于动态确定晶体管在n型和p型之间的极性。输入输出电压电平兼容,能够实现直接可级联的逻辑门[36,37]。尽管许多新兴器件展示了极性控制特性(如硅纳米线场效应晶体管、石墨烯场效应晶体管、碳纳米管场效应晶体管), 等),SiNW FET与当前硅技术工艺兼容。在图11中,当PG的输入电压为高时,SiNW晶体管为NMOS;当PG的电压为低时,其为PMOS。图12显示了通过测量获得的SiNW FET的ID‐VG 特性。该纳米线堆叠具有10 nm的栅氧化层、50 nm厚的保形多晶硅全环绕栅结构,以及用于堆叠纳米线的优化间距<20 nm。使用SiNW FET进行安全实现的优势包括其在伪装布局中对逆向工程的有效防御,以及用于逻辑混淆的多态门(详见第6.2和6.3节)。
3.1.2. 石墨烯对称场效应晶体管
作为MOSFET的替代方案,基于隧穿的晶体管技术[38,39]一直受到广泛关注。其中一种器件是双层石墨烯晶体管——通常称为对称场效应晶体管(SymFET)[40]。在SymFET器件中,隧穿发生在由绝缘和氧化层分隔的两层石墨烯之间。图13展示了SymFET可能的IDS−VDS特性,这些特性取决于顶栅电压(VTG)和背栅电压(VBG)(参见插图中的器件符号)。类似的特性也在实验中被观察到[41]。更具体地说,VTG和VBG通过静电场改变漏极和源极石墨烯层的载流子类型和密度,从而调制 IDS。如图13所示,峰值电流的值和位置取决于VTG和VBG。需要注意的是,图13所示的I‐V特性假设 SymFET器件具有 100 × 100nm的器件面积,并采用厚度为1.34 nm的氮化硼绝缘层。调节绝缘体厚度可以成为另一种设计手段。例如,理论上,将势垒厚度减小至两层氮化硼时,隧穿电流会显著增加,但会以增大漏电流为代价[42]。SymFET独特的I‐V特性为实现模拟和数字电路提供了一些有趣的电路级替代方案[42,43]。例如,级联SymFET器件可实现极小尺寸的多数门设计。此外,不同的VTG和 VBG组合可以显著改变I‐V曲线的形状。SymFET的独特性质可用于硬件安全,例如防止基于电源电压的故障注入。
3.1.3. 隧穿场效应晶体管
对于场效应晶体管的工作,栅极电压会调制分离源极与漏极的势垒。来自源极的能量高于势垒的载流子被注入沟道。由于势垒的变化将采样源极载流子费米分布的玻尔兹曼尾部,亚阈值斜率在室温下受限于60 mV/十倍频程。为了克服这一限制,带间隧穿[44] 提供了一种解决方案。载流子从半导体的价带到导带的隧穿概率取决于能带边缘的对齐情况。与传统场效应晶体管不同,隧穿场效应晶体管不会采样分布函数的玻尔兹曼尾部,而是在能带边缘适当对齐以启动隧穿过程时急剧开启。因此,隧穿场效应晶体管可以以小于60 mV/十倍频程的速率开启器件。
隧穿场效应晶体管利用栅极电压来控制P‐N结上的带间隧穿。图14a,b显示了n型沟道TFET在关态和开态下的截面图和能带图。如图6所示,当TFET的栅极施加零偏置电压时,沟道的导带底EC 高于源极的价带顶EV,因此无法发生带间隧穿,器件处于截止状态。当对n型沟道晶体管的栅极施加正偏置电压时,沟道的导带向下移动。如果EC 低于EV,则会形成一个隧穿窗口VTW。结果,源极中的电子将隧穿进入沟道,器件导通。
隧道场效应晶体管(TFET)处于截止模式;(b)TFET正在开启)
图15显示了硅FinFET和III‐V族异质结TFET的漏极电流与栅源电压的关系。TFET的亚阈值斜率比FinFET更陡峭。陡峭亚阈值斜率晶体管更有利于低电压和低功耗电子器件的应用。TFET的优点包括低电压和低功耗操作(详见第4节)以及轻量级加密(详见第6节)。
3.1.4. 铁电场效应晶体管
传统栅介质可以被提供有效负电容(NC)的绝缘体所替代。负电容导致半导体和绝缘体中的差分电势降具有相反的极性,从而使MOS电流以远优于60 mV/十倍频程的速率增加。根据基于朗道平均场理论[45],铁电(FE)绝缘体被认为具有负电容(NC)。
Negative capacitance due to the addition of an FE material to the insulator stack has been demonstrated via experiment [46]。Hysteretic switching with steep slope FE FETs with PbZr0.52Ti0.48O3 (PZT) and hafnium dioxide(HfO2) as the composite gate insulator has been reported[47]。FE FETs were fabricated on p-type silicon substrate with a doping concentration of 5 × 1016 cm−3。A 10-nm-thick HfO2 was deposited underneath the PZT film via atomic layer deposition(ALD) to prevent reaction between the PZT and the silicon channel directly(see Figure 16)。Note that ferroelectric FET here is built on top of the conventional CMOS process。Measured IDS-VGS characteristics of the FE FET shows a steep sub-threshold turn-on, with a slope of about 13 mV/dec。
此外,二氧化钒(VO2)表现出电诱导的急剧绝缘体到金属的转变。基于最近的实验数据,硅衬底上的相变场效应晶体管可实现8 mV/dec[48]的深亚阈值斜率。
3.2. 新兴存储器
静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)由于其高速、可制造性和可扩展性,是当今主流的存储技术。六晶体管SRAM广泛应用于高性能的一级和二级缓存阵列,而 DRAM则用作片外存储器阵列或作为嵌入式DRAM(eDRAM)用于高密度缓存。在SRAM和 DRAM中,数据以电荷形式存储在位单元中。由于缩小的晶体管尺寸导致漏电流增加,SRAM和 DRAM单元需要消耗更多能量来维持数据。
新兴非易失性存储器(NVM)如磁性隧道结(MTJ)、自旋转移矩存储器(STT‐RAM)、阻变存储器(RRAM)和相变存储器(PCM)被开发用于替代或补充静态随机存取存储器和动态随机存取存储器,以增加存储带宽并降低漏电功率密度。磁性材料通过向上和向下的自旋来存储信息。利用能量势垒,磁体可以以非易失性方式保留自旋信息。这种非易失性特性意味着使用磁体的存储器无需持续供电。理想情况下,非易失性存储器没有待机功耗。
3.2.1. 阻变存储器
一个RRAM单元通常由位于顶电极和底电极之间的绝缘体构成。当施加置位(正)电压时,由于氧空位的重新分布,绝缘体中形成导电细丝(CF),从而使RRAM的电阻降低至低阻态(LRS)。当施加复位电压(相反极性)时,导电细丝断裂,RRAM电阻进入高阻态(HRS)。图17a 显示了一个基于TiN/HfOx/Si的RRAM单元的原理图[49]。Al/Ti/TiN 作为顶电极,n+ Si 作为底电极。HfOx 是具有极薄SiO2界面层的绝缘体细丝。当施加正的置位电压时,由于产生氧空位VO[35],在HfOx层中形成连接TiN和SiO2的导电细丝。因此,器件从HRS切换到LRS。在复位过程(使用负电源电压)中,氧空位与氧离子的复合导致导电细丝断裂。因此,器件从LRS切换到HRS。图17b 显示了在100次连续直流扫描循环中LHS和HRS的电阻分布。值得指出的是,2015年闪迪与惠普签署了长期合作伙伴关系,联合开发RRAM技术,并期望产品于 2018[50]进入企业存储市场。
阻变存储器(RRAM)单元的横截面;(b)RHRS和RLRS的测量得到的电阻分布。经[49],许可复制,版权IEEE,2016年)
3.2.2. 相变存储器
相变存储器[51]利用不同相态下电阻率的可逆变化来存储数据。PCM存储单元由一层夹在两个电极之间的硫属化物(锗、锑、碲合金)构成,其中一个电极延伸出一个加热电阻与硫属化物层接触,如图 18[52]所示。硫属化物的相变由强烈的局部焦耳热引发。在熔融的非晶态相变后,材料由于无序晶格而表现出高电阻率,这可以表示二进制“0”。在冻结多晶相中,硫属化物处于规则的晶相结构 具有低电阻率,可表示二进制“1”。相变存储器提供 s many advantages suc h如可扩展性和低待机功耗[53]。
众所周知,动态随机存取存储器(DRAM)在过去40年中一直是计算机系统的基本构建模块。随着DRAM面临日益严重的可扩展性和功耗问题,相变存储器(PCM)成为DRAM的一种有前景的替代方案。2016年,IBM研究院可靠地展示了使用相变存储技术在每个存储单元中存储3比特数据的能力,该技术有助于电子设备从标准内存和闪存过渡到速度更快、更可靠的存储类型[54]。除了非易失性和节能特性外,PCM还具有高密度特性和可持续的可扩展性。然而,PCM的存储单元只能承受有限的写入次数。必须应用磨损均衡机制,以防止某些存储单元比其他单元更早磨损。传统上,可以采用类似闪存存储器中使用的地址映射表来实现磨损均衡[55]。但由于PCM与闪存存储器之间存在固有差异,基于表的磨损均衡技术并不适用于PCM。基于代数映射的磨损均衡[56]被提出,利用代数算法计算逻辑地址与物理地址之间的映射关系,而不是在表中查找映射。PCM安全性的详细内容将在第6.4节讨论。
3.2.3. 自旋转移矩存储器
被认为是下一代存储技术的基于自旋的存储器是建立在自旋电子学原理基础之上的。这些存储器的独特之处在于利用电子自旋自由度进行计算,相较于传统存储器(如基于CMOS的DRAM),其主要优势在于能效、可扩展性、密度和速度。由于内部磁性材料能够在断电情况下保持信息,基于自旋的器件即使在关闭状态下也能保留信息。凭借这一特性,这些器件漏电流更少,使得在片上最后一级缓存中集成更多数量成可能。此外,基于自旋的逻辑器件与基于晶体管的器件具有良好的兼容性, 为构建混合计算系统提供了机会。最突出的基于自旋的器件是自旋转移力矩随机存取存储器和磁畴壁存储器(DWM)。
基于STT‐RAM的缓存存在写入延迟与读取延迟之间的固有折衷。一个典型的晶体管与磁隧道结(MTJ)单元如图19a[57]所示。磁隧道结是自旋电子学领域中的基本存储器件,具有数据非易失性、快速数据访问和低电压操作的特点。每个MTJ由两个铁磁层组成,中间被一层极薄的隧穿氧化物隔开。其中一个铁磁层(称为钉扎层)的磁化方向固定不变;另一个铁磁层(称为自由层)用于信息存储[58](见图19b)。通过使用自旋极化电流改变MTJ器件中自由层相对于固定层的磁取向来实现数据写入。当两层磁化方向一致时(平行态),结电阻较低(“0”状态);当两层磁化方向相反时(反平行态),结电阻较高(“1”状态)。
通过施加一个小的偏置电压并检测电流来读取该单元。可以使用隧穿磁阻(TMR)来表征MTJ磁体的特性,其定义为
% 100
P AP R R TMR (3)
其中RAP 为反平行态的磁阻,RP 为平行态的磁阻。MTJ可利用3‐D技术与互补金属氧化物半导体集成。IBM在2003年展示了基于128千比特MTJ的MRAM,表明MRAM的性能可优于动态随机存取存储器[59]。本文在第6.4节中讨论了MTJ的安全性。此外,值得指出的是,Everspin科技已在市场推出了采用自旋转移矩技术的双倍数据速率存储器产品[60]。
带有导通门晶体管的磁隧道结(MTJ)的三维示意图;(b)磁性隧道结的自由层与固定层的取向)
3.2.4. 磁畴壁存储器
自旋转移力矩随机存取存储器和磁畴壁存储器(DWM)是自旋电子学中的关键代表,特别是由于其多层单元(MLC)能力在突破存储密度瓶颈方面具有重要意义。赛道存储器(RM)最初由帕金等人在 2008[61]中提出。安农齐亚特等人在 2011[62]中首次实现了基于IBM 90纳米CMOS技术制造的RM晶圆。该晶圆在常规片上缓存[63]以及片上通用图形处理单元(GPGPU)缓存[64]中的应用也得到了探索。DWM通常包括三个部分:写入头、读取头和磁性纳米线(NW)。类似于传统磁性隧道结中磁性层的端子,DWM的读取头和写入头以磁极性的形式存储比特信息。根据该存储结构,在纳米线中相反极性区域之间形成磁畴壁。为了前后移动磁畴壁(或相应的比特),从纳米线左侧或右侧的接触点注入电荷电流。这种行为类似于移位寄存器的表现。因此,为了读取(或写入)纳米线中的某个特定比特,通过电流注入将其位置移动到读取头(或写入头)下方,然后改变(或检测)MTJ电阻。图 20[65]展示了赛道畴壁存储结构。
3.2.5. 全自旋逻辑
全自旋逻辑(ASL)器件包含用于
存储二进制数据的纳米磁单元、输入端口(低自旋极化率)与输出端口(高自旋极化率)之间的隔离层,以及一个非磁性通道。图21显示了一个包含两个磁体的简单ASL[66]。这两个磁体被极化在同一方向,并通过一个非磁性通道相互连接。该通道由镍或铜制成,因其具有较高的自旋翻转长度。通道的最大长度取决于自旋翻转长度,该参数用于确定自旋电流能够传播的最大距离。当施加负VDD时,自旋电流将从M1(其中M表示磁体)通过通道流动。电荷电流将从GND流向VDD,而电子将从VDD流向GND。与M1方向相同的自旋将通过,而相反方向的自旋则无法通过M1(电子被滤波)。由于M1的输出具有高自旋极化率,而M2的输入具有低自旋极化率,M1将主导自旋电流,且通过的自旋将在通道中积累。同时,M2将接收到M1传来的大量自旋电流。由于M1和M2的磁化方向相同,M2的方向不会改变。因此,整个设计将作为一个缓冲器工作。相反,当施加正VDD时,电子将从地流向M1。结果,与磁体方向相反的自旋将在通道中积累。与此同时,只有与M1方向相同的自旋才能从M1输出,而相反方向的自旋将通过通道传播以切换M2的方向,从而使器件作为逆变器工作[67]。基于这一现象,可利用[68]中的面内电流非局域自旋阀模块化模型来模拟全自旋逻辑。可以通过设计包含两个磁体的简单ASL来实现一个简单的多态门(逆变器/缓冲器)。我们可以通过施加正VDD将功能从缓冲器切换为逆变器,或通过施加负VDD将功能从逆变器切换为缓冲器。施加50毫伏(正VDD)的输入电压即可反转M2的方向。值得注意的是,设计者可以通过增加输入电压来轻松提高切换速度,但代价是功耗增加。因此,在延迟和能耗之间存在权衡[69]。ASL器件的这一特性可能在对抗多种攻击时提供强大的知识产权保护,且性能开销较小。关于全自旋逻辑安全实现在逻辑锁定中的详细内容见第5.5节。
4. 基于新兴TFET技术的超低功耗设计
对于第3.1节中讨论的新兴晶体管技术,TFET技术在低电压、低功耗电子器件应用方面可能比其 NC FETs、SymFETs和铁电场效应晶体管更具前景。
4.1. 使用隧穿场效应晶体管的数字逻辑与电路
如今,我们正进入一个“超越摩尔”的时代,计算技术被广泛应用于高端服务器、移动计算设备以及普适传感器节点等多种场景,这使得能效变得至关重要。如第2节所述,在近阈值区进行电源电压调节可实现最佳能效。图22展示了在不同电源电压等级下,互补金属氧化物半导体与隧穿场效应晶体管与门的能效与延迟关系图。当供电电压范围为0.2至0.5伏特时,隧穿场效应晶体管逻辑门—与操作在能量和延迟性能上明显优于其CMOS对应器件。在隧穿场效应晶体管与互补金属氧化物半导体的加法器及一级缓存之间,也可观察到类似的能效‐延迟特性[70]。
4.2 使用新兴隧穿场效应晶体管技术的低功耗、低压逐次逼近型模数转换器
为了比较TFET与20纳米CMOS技术的性能,对基于TFET的ADC和基于CMOS的ADC在有效位数(ENOB)和能量方面进行了评估。图23描绘了基于TFET和基于CMOS的ADC的有效位数(ENOB)。如图23所示,当电源电压增加时,基于TFET的ADC的有效位数(ENOB)迅速增加,并在5.8位时达到饱和当VDD高于0.5伏特时。在相同的供电电压下,基于TFET的ADC比基于CMOS的ADC具有更高的有效位数。当VDD ≤ 0.3 V时,由于CMOS晶体管的导通电阻较大,基于CMOS的ADC也停止工作。文献[23,24] 中对TFET ADC与已报道的CMOS ADC进行了全面比较,结果如图24所示。为了探究TFET在亚阈值区的好处,我们将VDD 设置为0.3伏特,仿真温度设置为25摄氏度。模数转换器的功耗以能量来衡量,定义为能量=功率/采样频率。根据图24,所仿真的基于TFET的逐次逼近型模数转换器比大多数已制造的CMOS ADC能效高出一到三个数量级,且比最先进的CMOS ADC高出三倍。
4.3. 基于隧穿场效应晶体管的噪声整形低功耗ΔƩ逐次逼近型模数转换器
基于TEFT的NS ∆Σ SAR ADC采用Cadence Spectre进行设计和评估®,并使用瞬态噪声仿真模块。图25显示了采用TFET的动态比较器的原理图。最小TFET晶体管长度为20纳米。供电电压为 0.3伏特,以利用其优势接近阈值操作的温度为 25 ◦C。在正常条件下,外部时钟频率为25兆赫兹。
图26显示了当输入频率为(a) 5千赫和(b) 25千赫时,噪声整形SAR模数转换器的输出功率谱密度。对于5千赫输入信号,仿真得到的信噪失真比(SNDR)为72.14分贝,其无杂散动态范围(SFDR)为76分贝。因此,5千赫输入信号的有效位数(ENOB)为11.69位。25千赫输入信号的谐波落在奈奎斯特频率之外,并淹没在整形噪声中。25千赫输入信号的SNDR为71.51分贝,ENOB为11.58位。功耗分解如图27a[28]所示。当前设计的能量和信噪失真比消耗与文献中报道的各种模数转换器数据的比较如图 27b[24] 所示。在给定SNDR条件下,基于TFET的Δ SAR模数转换器表现出最佳的能效。例如,我们设计的二阶Δ SAR模数转换器(在图27b中标记为星号)在先前报道的模数转换器中具有最低的功耗,其SNDR大于62分贝(相当于分辨率高于10位)。
5千赫;(b) 25千赫)
功率分布图;(b) 能量与信号噪声动态范围)
4.4. 生物启发式超低功耗计算
人脑是最高效的低功耗机器。人脑包含约1011个神经元和 1015个突触,可执行卓越的视觉或其他感官感知任务,如分类、识别和认知推理。它能够处理海量数据以实现实时处理,且仅消耗约20 W的功耗。基于CMOS技术的传统冯·诺依曼计算系统无法达到这种能效水平。具有生物感知和信息处理潜力的神经形态硬件系统已受到广泛关注[75,76]。生物启发式神经形态计算可能为新型计算与通信范式打开大门。图28展示了神经网络中生物神经元与突触的连接性,用于信号传输。
生物启发式计算可被用作下一代超低功耗解决方案。一个神经元从多个突触接收信息,并以不同的权重将这些信息相加,如图29a所示。当求和信号达到膜上的触发阈值电压时,就会产生输出脉冲。图29b展示了积分‐放电(IF)神经元电路的原理图。脉冲神经网络(SNNs)是实现片上智能的主要候选方案。由于采用类脑异步事件驱动计算,SNNs将其计算资源集中在网络的当前活跃部分,从而相比人工神经网络(ANN)能够实现数量级更低的功耗。
神经元求和模型;(b) 一种积分‐放电神经元)
IBM研究院在2014年展示了一款大规模数字CMOS神经突触芯片,名为TrueNorth[77],包含超过 1 × 106个积分‐放电脉冲神经元和 256 × 106个突触。然而,TrueNorth并未引入任何与学习机制相关的信息。神经科学家发现,学习规则遵循脉冲时序依赖可塑性(STDP)[78]。大脑以异步方式处理脉冲流,以无监督的方式实现对重复模式的识别和提取。在STDP无监督学习中,突触权重可以进行调整。当突触后脉冲与突触前脉冲的时间差为正时,权重增加,如图30所示;当突触后脉冲与突触前脉冲的时间差为负时,权重减少。这模拟了大脑学习能力。此外,生物脉冲神经元和突触表现出固有的随机性,噪声信号也可以在一定程度上被准确处理。
新兴非易失性阻变存储器、相变存储器和导电桥接存储器是模拟具有二值突触和随机STDP学习规则的生物启发系统的理想候选器件。忆阻器内部存在固有的随机性,这导致其在不同状态之间的切换时间会随着输入电压和脉冲持续时间的变化而变化。例如,施加较小的电压脉冲但延长作用时间同样可以触发切换事件。忆阻器是一种双端器件,其电阻是其历史通过电流和电压的函数。它在阻变器的低阻态 RON和高阻态 ROFF之间变化,类似于第3.2.1节中描述的RRAM性能。利用忆阻器在其两种状态之间切换的固有变异性来建模随机二值突触。一种结合了忆阻器滞回输出动态、随机性和可变阈值的简单阈值模型被描述为[79]
dVT= αθ(VT0 − VT)dt+ (|V| −∆V− VT0)dN(τ) (4)
其中,VT 对应于在每一时刻计算出的瞬时阈值电压,而VT0 表示开关阈值,即器件开关几乎瞬时发生且概率接近1的点。 ∆V是输入值与新设定的阈值点之间的无穷小差值。 θ() 对应阶跃函数,而N(τ) 是为阈值引入变异性的一个泊松过程。所产生的忆阻器输出是一种诱导的时间开关随机性。方程(4)中的第一项是确定性的,方程(4)中的第二项表示随机行为。
With the resistance change between two states, and the temporal variability in the switching behavior, the memristor is akin to a binary stochastic synapse. The use of a memristor within a crossbar structure provides an interconnected array in input and output neurons. The interactions between the pre-synaptic neurons and the post-synaptic neurons will impose levels of voltage across the memristors whose state will be updated in non-deterministic manner. Adding stochastic feature to the binary synapses makes them behave in a probabilistic manner in allowing the neuronal spikes to pass or induce a weak response as per the memristor state. This emulation of the noisy environment within the brain enhances the learning process for the neural network.
图31展示了考虑忆阻器随机行为的具有忆阻器突触的脉冲发放神经元的输入和输出。
最近,提出了一种由磁性隧道结(MTJ)和重金属组成的异质结构作为随机二元突触[80]。通过互连神经元脉冲活动之间的时间相关性,实现基于磁隧道结电导状态随机切换的突触可塑性。所提出的突触结构和随机学习算法在用于分类MNIST数据集手写数字的脉冲神经网络中的有效性得到了验证。该神经形态系统的能效源于自旋电子突触的超低编程能量。
5. 硬件安全
物联网设备通过嵌入的传感器、处理器和执行器在任何时间、任何地点感知并与物理世界交互,这带来了安全和隐私挑战。物联网设备容易受到黑客攻击。例如,用于智能家居的谷歌Nest恒温器可能因访问Nest恒温器中的sys_boot引脚而遭到黑客攻击[81]。一旦显著撤回sys_boot,处理单元将根据来自USB或UART3端口的传入指令开始运行。攻击者可能利用此启动漏洞将自己代码插入设备。一个易受攻击的物联网设备可能被用来攻击同一物联网网络上的其他组件或设备。此类攻击的目的通常是通过后门插入等方式泄露用户的私人或未经授权的数据。
5.1. 加密
加密被定义为保护收发数据免受未经授权用户和窃听攻击的最广泛使用技术之一。已提出多种加密方法,但更稳健的是高级加密标准(AES)[82]。在物联网系统中,芯片上实现AES非常重要。然而,与其它加密算法相比,AES算法的硬件实现更为复杂。此外,已有多种侧信道攻击被证实可通过加速算法恢复秘密密钥[83]。AES的复杂性可通过将算法分割成多个部分(如行移位、S盒和列混合)来缓解。例如,实现128位明文(4 × 4数组,即状态机(SM))的AES加密主要可分为四个步骤,所需轮数取决于加密密钥的长度。每轮AES包括四个操作:字节替换(SubBytes)、行移位(ShiftRows)、列混合(MixColimns)和轮密钥加(AddRoundKey)。
- SubBytes : 每个输入的16个字节通过使用S盒函数的简单替换操作转换为不同的值,其中引入了一个包含256个值的表用于替换。
- ShiftRows : 此操作在状态数组的每一行上执行,其中每行通过特定字节数向左旋转。此步骤用于打乱128位数据块。
- MixColimns : 此操作通过将每个状态数组列乘以一个包含1、2和3数字的矩阵来创建新列,并用新列替换原列。MixColimns变换可使用异或(XOR)和与非(NAND)逻辑门实现(执行移位和加操作)。
- AddRoundKey : 最后一步是将秘密轮密钥进行异或运算。
基于上述讨论,AES需要多个异或门和移位操作,这在某些能以低开销实现异或和移位操作的技术中可提供良好优势。
Rivest、Shamir和Adleman(RSA)[84]提出了一种用于提升安全性的加密算法。RSA是一种公钥密码系统。RSA算法的加密和解密操作使用两个不同的密钥,即公钥和私钥,其中公钥用于加密明文,私钥由接收方用来恢复(解密)数据。实现RSA加密的难点在于生成公钥和私钥,因为这些密钥必须是大素数,否则将容易受到暴力破解攻击。另一种称为椭圆曲线加密(ECC)的非对称密钥加密技术已被开发出来[85]。ECC能够在计算成本较低的情况下提供良好的安全性。ECC适用于许多应用,如医疗系统以及无线和移动环境。ECC能够以更短的密钥长度提供与RSA加密相当的高安全级别。因此,它能提供更优的性能,降低成本,并减少功耗。Gura等人[86]使用8位微控制器比较了ECC和RSA的性能。他们能够在8位微控制器上,以8 MHz时钟频率实现1024位RSA私钥操作(指数e= 1016+ 1)耗时0.43秒,以及160位椭圆曲线当前点乘法耗时0.81秒。
尽管高级加密标准和RSA加密密码系统能够提供高安全级别,但它们并不适用于需要小面积和低功耗的应用,例如物联网系统。轻量级加密算法更适合物联网应用,因为它与高级加密标准和RSA加密技术相比,所需面积更小且功耗更低。这是因为轻量级加密密码学的分组大小小于64位,而高级加密标准中的分组大小大于128位。例如,两种轻量级数据加密标准(DES),即DESL和DESXL,在[87]中被提出。由于DES算法依赖于派生数据,DES中的轮函数可以用S盒替代,从而消除了初始和最终置换的需要。为进一步降低加密密码系统的复杂性,文献 2009[88]中引入了另外两种加密密码系统,即KATAN和KTANTAN。KATAN/KTANTAN是由克里斯托夫·德·卡尼耶、奥尔·邓克尔曼和米罗斯拉夫·克内泽维奇设计的一类面向硬件的分组密码。轻量级KATAN设计包含256轮、移位寄存器以及非线性反馈函数。每种密码具有三种不同的分组大小:32位、48位和64位,并采用80位对称密钥长度。KATAN密码的分组经过256轮迭代以生成加密输出数据(密文),其中使用80位密钥长度的密钥调度被所有KATAN分组共享。由于三种密码分组在所需硬件资源方面的差异仅在于寄存器的大小,因此我们专注于KATAN密码的32位分组。32位分组由32个寄存器组成。前13个寄存器位于L1部分,剩余19个寄存器位于L2部分。L1和L2分组作为线性反馈移位寄存器(LFSR)运行。在每个时钟周期,L1和L2分组中的数据都会被移位。L1和L2同时用于加密和解密端。在加密过程中,明文存储在L1和L2分组中,其中L1携带明文的前19位,L2携带剩余的13位。两个称为fa(L1)和fb(L2)的非线性函数的计算通过来自非线性不规则因子(IR)、L1(在fb中)和L2(在fa中)不同位置的数据以及不同密钥位(即Ka和Kb)上的多个异或门和与操作实现。
图32显示了每个L1和L2寄存器的最低有效位(LSB)和最高有效位(MSB)。在每个时钟周期,L1和L2中的数据都会进行移位。Ka和Kb密钥与IR在每一轮中由另外两个模块生成。图33a 展示了IR模块,其中包含一个8位线性反馈移位寄存器。该模块执行两个操作:首先,计数轮次数,以及为两个函数(fa和fb)生成不规则新值。当轮次数达到254个周期时,加密过程完成。密钥调度的另一个重要模块如图33b 所示。该寄存器具有80位线性反馈移位寄存器,其中在加密开始前将密钥的值加载到该模块中。每一轮密钥通过在线性反馈移位寄存器生成器中移位一位来生成。两个密钥(Ka和Kb)每两个周期从最后两个有效位产生。公式(5)展示了具有位于第13位、第50位、第60位和第80位的4个抽头的线性反馈移位寄存器生成器的倒数多项式,这些抽头是为80位移位寄存器选择的。密钥的定义,即K,以及第j轮的总线密钥在公式(6)中给出。
f(x)= x80 + x61 + x50 + x13 + 1 (5)
k j ={ K j j= 0… 79
k j−80 ⊕ k j−61 ⊕ k j−50 ⊕ k j−13 j> 79
(6)
KATAN密码的方程(7) and (8) illustrate the two nonlinear functions(f a and f b) her 包括计算。KATAN加密 ation of the two blocks(AND/XOR operations) We chose i 32位。该l经过调整以实现 ocations of the bits in both L1 and L2 registers have been speci the com计算 n in Fa an 个功能,如图33所示。注意这些位的位置可以 d f b h h h l 如果该模块 si 不同 KATAN密码的大小被更改。
f a(L1)= ka+ L1[12]+ L1[7]+(L1[8] · L1[5])+(L1[3] · IR) (7)
f b(L2)= kb+ L2[18]+ L2[7]+(L2[12] · L2[10])+(L2[8] · L2[3]) (8)
5.2. 侧信道分析
侧信道信息分析,特别是针对功耗特征的分析,可用于提取系统中存储的数字密钥。在物联网世界中,设备的广泛分布使得攻击者有可能物理接触设备并实施侧信道攻击。因此,在系统设计中必须考虑针对此类攻击的防御机制,同时还要兼顾系统的功耗预算。研究人员已长期致力于应对一种常见且广为人知的侧信道攻击——差分功耗分析(DPA)[89,90]。相应地,防御技术(或密码系统)可以在硬件级和软件级(或算法级)实现。这些系统应具备特定功能,能够至少阻断一定程度的充分信息泄露。例如,可通过哈希算法生成多个密钥,从而增加完全实施攻击的难度。另一种技术建议对加密算法的非线性部分采用掩码方法(即使用额外的数学函数)[91],以进一步提升安全级别。此外,还可以随机改变系统电压和频率,以随机化时间和功耗的行为特征。
迹线,以防止门级的侧信道攻击。杨等人[92]提出了在密码算法实现中采用基于感应放大器的逻辑风格,使功耗与处理的数据无关。类似地,一种传统的电路级保护方案是电流模式逻辑(CML),这是一种可同时提供功耗效率和安全增强的传统电路级保护方案。为了评估系统的安全性,我们不能仅关注差分功耗分析;还应考虑其他攻击方案,如相关功耗分析。
现在将讨论差分功耗分析和相关功耗分析。已对KATAN加密系统进行相关功耗分析的研究[93]。根据[94],,在差分功耗分析过程中,必须提取并识别加密系统计算中的中间值。这些值连同明文和密文有助于发现密钥。轮密钥(或中间密钥)的长度越小,差分功耗分析所需的计算量就越少,从而使系统密钥的分析与破解更加容易。除了获取系统的实际功耗轨迹外,还需使用多个密钥猜测来计算中间值,这些中间值被视为假设功耗轨迹。接着,通过选择函数对实际功耗轨迹和假设功耗轨迹进行分类,对该函数输出结果的分析将揭示出对应于正确密钥假设的峰值。差分功耗分析的一种扩展方法是,在计算假设功耗轨迹时,结合使用功耗模型和中间值,这种方法称为相关性功耗分析(CPA)。将实际功耗和预测功耗轨迹输入到相关函数中,以找出最高相关值,该值可能对应于正确猜测的密钥。CPA中采用的功耗模型是汉明重量模型;而在差分功耗分析中使用的则是汉明距离模型。
的作者[93]提出了一种通过对代数攻击和立方攻击进行分析,来对KATAN系列密码系统的安全评估方法。此外,还提到了通过侧信道分析攻击KATAN系统的可能性。根据KATAN算法,明文和密文通过两个非线性函数“fa”和“fb”与中间密钥相关联。接下来,这两个函数的输出位即为攻击的中间值或攻击目标点。这两点可在图32中看到。KATAN密码算法的硬件实现主要由D触发器构成。因此,系统的总功耗在很大程度上取决于这些元件。因此,必须采用一种能够最大化非线性函数对系统功耗轨迹贡献的攻击模型。这种最大化(在静态逻辑风格中)可以通过在特定时钟周期内,基于单功能输出位发生逻辑1到0或0到1跳变的约定来构造明文,从而导致功耗轨迹与密钥之间存在更紧密的关系。通过这种方式,在每个时钟周期中逐步揭示密钥的每一部分,直至提取出完整密钥。
5.3. 供应链安全
保护电子电路和系统免受供应链中集成电路造假的影响是一个重要问题。通常,攻击者会采用廉价且简单的方法来伪造或非法复制芯片。由于造假,所生产的芯片可能不可靠,无法正常工作。这些伪造的集成电路可能导致系统失效,从而危及人类生命安全。美国国防高级研究计划局(DARPA)支持了电子防御供应链完整性计划(SHIELD),以防止造假并保护集成电路,其方法是增加设计复杂性,从而显著提高造假成本。在此方案中,集成电路的封装包含一种加密技术,例如国家安全局(NSA)加密、近场通信以及传感器[95]。可信硬件所占用的面积约为 100 × 100 µm 2(小芯片),这对于阻止攻击者访问或逆向工程小芯片至关重要。集成电路可通过称为外部探针的物理设备进行认证,这些设备将提供一个感应/射频近场读取器,为小芯片供电足够长的时间,以交换信息,使小芯片能够识别和认证自身,并更新其被动环境传感器的读数。
SHIELD项目提供了一种积极且全面的解决方案,能够消除所有普遍存在的伪造形式。通过强大的信任根和可靠的通信和电源链路来增强封装电子元件的安全追踪,将在保障军用和商用平台电子系统安全方面成为一项关键资产。
基于硬件的威胁本质上可分为三个领域:硬件木马注入、知识产权盗版/集成电路过度制造以及逆向工程。在不可信的公司或设计机构中的攻击者可能会将恶意电路(即硬件木马)注入原始IP设计中。此外,恶意内部人员可能在未经设计者许可的情况下复制芯片,并为自身利益过度制造集成电路芯片。攻击者还可能通过逆向工程手段对IP进行复制和过度制造。芯片安全在制造过程中的脆弱性推动了对抗措施方法的研究。其中一种方法是逻辑加密技术。图 34展示了结合逻辑加密技术的集成电路设计流程。该方法并非将原始网表直接发送至海外制造工厂,而是采用低成本的逻辑门级加密技术来保护知识产权设计。在获取制造的芯片后,为了恢复设计的正确输出,需向加密电路提供正确密钥位,以便认证的知识产权所有者解锁芯片。然而,当使用无效密钥位时,锁定电路应产生错误输出。
5.4. 逻辑锁定
逻辑锁定(或逻辑混淆)通过插入带有密钥位的额外门电路来防止集成电路盗版和过度生产攻击,从而保护集成电路的正确功能。在组合加密中,已提出多种方法,例如随机插入、故障影响分析和逻辑混淆。在[96], Rajendran提出了一种故障影响分析(FA)方法,以提高随机逻辑加密的安全级别。在FA方法中,新门电路的插入基于固定故障模型。首先,通过计算每个门电路的 stuck-at-0 和 stuck-at-1 来确定其故障影响。然后,在每一轮迭代中,可在对输出具有最高故障影响的位置插入一个新的门电路,直到汉明距离达到50%(或接近50%),或直到所有提供的128个密钥位耗尽为止。
为了实现强健的逻辑混淆,以特定方式将与密钥相关的门电路位注入设计中,从而使密钥信息提取过程难以实现[97]。亚辛等人通过插入更多成对密钥对此工作进行了改进[98]。在[99],中,通过在设计中的特定选定节点处插入工艺变异传感器,并为每个集成电路生成唯一密钥,来实现集成电路保护。该技术达到的最大HD约为18%。
Alasad等人 [100] 提出了一种利用多路复用器作为密钥门的安全电路设计。为了最大程度地保护集成电路免受各类攻击者的攻击,建议在每个输出位插入多路复用器(MUX),如图35 所示。原始输出位及其互补信号将被输入到一个双输入多路复用器中,并通过一个密钥位来选择每个多路复用器的输出。密钥位选择的值必须是随机的,且包含一半零和一半一,以产生50%的汉明距离。由于每个输出位及其互补信号都连接到一个多路复用器,并通过随机的密钥位进行选择,因此该电路的每个输出位当密钥改变时,集成电路是可变的。在这种情况下,不仅正确输出与错误输出之间的汉明距离约为 50%,而且每个输出位的值也是可变的。由于每个输出位会根据通过LFSR生成器提供的密钥而变化 (该生成器用于生成随机密钥,如前所述,每个密钥随机包含一半零和一半一),因此攻击者无法确定设计的功能。由于密钥值因随机生成而不可预测,每个输出位 consequently 是任意的。一旦插入正确的用户密钥,有效负载的输出将被设置,LFSR生成器的使能(EN)将被禁用,同时激活信号(A)将被激活以初始化MUX选择的值。此时,电路功能将是正确的。如果用户密钥中有一位的值不正确,错误输出比率仍将约为50%。尽管在每个输出位插入多路复用器显然会最大化对设计的保护以及增加攻击者的模糊性,但功耗和面积开销将大幅增加。因此,该技术更适合于包含大量输出位的大型电路或昂贵的集成电路芯片。在半MUX和全MUX插入中,如果某个输出端存在逆变器,则我们通过切换其输入将其替换为多路复用器。此外,加密电路的所有组件(在半MUX和全MUX插入技术中)均在布局前阶段完成。
图36展示了基于全多路复用器插入进行逻辑加密的组合电路(ISCAS’85)和时序电路( ISCAS’89)基准电路的分析汉明距离,其中达到该汉明距离所需的LFSR最小长度应与主输出位的数量相同。这些基准电路所达到的汉明距离为50%,除了S9234为48.72%,因其输出数量为奇数。
使用新思科技的设计编译器工具和45纳米CMOS库测量每个基准电路的延迟、功耗和面积开销。由于多路复用器仅插入网表的输出端,因此所有基准电路的延迟开销(时序路径)几乎为零。同时,每个基准电路的功耗和面积开销取决于输出位的数量。图37和图38显示了功耗‐延迟和面积开销。平均而言,与故障影响分析方法相比,半路复用器插入节省了超过3.6× 的面积开销和3.4× 的功耗‐延迟开销,而全路复用器插入所需的面积开销不到故障影响分析方法的一半,功耗‐延迟开销也低于其一半。
已经提出了多种攻击方法,以揭示各种逻辑锁定方法的漏洞,从而质疑锁定电路的正确密钥[101]。然而,最强大的一种是基于布尔可满足性(SAT)的攻击[102]。通过使用少量的区分输入模式,SAT攻击成功地暴露了所有逻辑锁定方法的密钥。这些区分输入模式被提供给加密电路,并将其相应的输出与正确输出模式进行比较,而正确输出模式是从公开市场中的激活的集成电路获得的。SAT算法用于确定这些输入‐输出黄金对。因此,SAT攻击仅使用受影响的输入模式,从而在几分钟内解密具有大密钥尺寸的大规模电路。通过引入一个作为单功能输出的与门树小型逻辑电路,可以缓解SAT攻击。亚辛等人[103]实现了一种轻量级逻辑模块,即抗SAT技术,以保护锁定的网表免受基于SAT的攻击。部分输入密钥位(KA)用于锁定设计的加密和解密,而其余密钥位(KB)则用于阻止SAT求解器。SAT攻击提取密钥所需的迭代次数随着抗SAT密钥位(KB)数量的增加呈指数级增长。尽管当KB大于64位时,抗SAT模块能够成功防止SAT攻击,但该技术在追踪一种称为信号概率偏斜(SPS)[104]的基于信号的攻击方面具有价值。由于两个抗SAT互补模块的两个输出应具有最高的差分信号概率,SPS可以在几秒内轻松识别并移除所加入的抗SAT电路。对于大规模电路,基于SPS的攻击可在不到2分钟的时间内从所有加密网表中移除抗SAT模块。
5.5 使用全自旋逻辑器件(ASLD)的逻辑锁定
ASLD可以自然地执行多数门(MG)操作。多数门的原理是主输出的值取决于多数输入的值。基于这一现象,ASLD能够实现任意逻辑门。例如,设计者可以通过将固定磁体的值设为‘1’,轻松获得一个N输入或非门。通过改变固定磁体的磁化方向(即将固定磁体的值设为‘0’),该设计可实现为N输入与非门。为了获得与门和或门,必须在主输出端添加一个额外的磁层。基于此分析,ASL器件因其独特特性被视为一种多态门。该器件使我们有机会通过将其中一个主输入作为外部密钥,在不增加额外硬件的情况下,利用相同结构改变电路功能。如图39所示,ASL结构可以在同一电路中提供四种不同的门电路:使用仅4个磁体实现与门、或门、与非门和或非门。其中A和B为主输入,Key和VDD用于改变电路功能。我们将磁体的第三个输入(C)设为外部密钥输入。当VDD为正时,通过将密钥值从“0”变为“1”或从“1”变为“0”,即可分别将电路功能从与门切换为或
1918

被折叠的 条评论
为什么被折叠?



