用于大规模半导体供应链完整性的带外电源侧信道检测

最新推荐文章于 2026-01-09 18:37:37 发布

原创最新推荐文章于 2026-01-09 18:37:37 发布 · 567 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#无人机 #YOLO #目标检测 #音视频 #人工智能

大家读完觉得有帮助记得关注和点赞！！！

摘要

微控制器的带外筛查是半导体供应链安全的一个主要缺口。诸如X射线和破坏性逆向工程等高保证技术虽然精确，但速度慢且昂贵，阻碍了对硬件木马或固件篡改的全面检测。因此，人们对应用机器学习技术来自动化取证检查的兴趣日益增长，以实现无需人工监督的快速、大规模组件检查。我们介绍了一种非破坏性筛查方法，该方法使用电源侧信道测量和生成建模来检测商用微控制器中的篡改，而无需可信硬件。作为概念验证，我们从 ChipWhisperer 收集差分功耗分析 (DPA) 轨迹，并仅使用良性测量数据训练一个生成对抗网络 (GAN) 以学习标称功耗行为。训练好的判别器随后充当单类异常检测器。我们报告了在多种篡改场景下的检测性能，并讨论了该技术如何作为基本功能测试和高成本取证分析之间的中间筛查层。所提出的方法在半导体供应链实践和政策的背景下进行评估，以评估其作为中间保证机制的适用性。

1 引言

微控制器和集成电路构成了现代关键系统的基础，但它们在系统集成之前不太可能受到严格的来源验证或硬件完整性技术验证[1]。在设计或制造过程中插入的硬件木马以及假冒或重新标记的组件，对国防系统、工业控制基础设施和安全关键平台构成重大威胁[2]。虽然现有的供应链风险管理框架承认这些风险，但它们为集成前快速、可扩展地验证组件完整性提供的技术控制有限。

当前的硬件保证方法在彻底性和可扩展性之间存在根本性的权衡。高保证技术，如X射线计算机断层扫描、开盖和去层以及破坏性逆向工程，可以高置信度地检测结构异常和未授权电路[3]。然而，这些取证方法每台设备需要数天到数周的时间，需要专用设施和专家分析，使得全面筛查在经济上不可行。因此，它们仅应用于小的统计样本，使绝大多数组件未经验证[1]。相反，标准的验收测试依赖于功能验证和边界扫描，这些测试执行快速，但对保持标称输入-输出行为的完整性修改提供的保护微乎其微。这使得系统集成商没有实用的方法来以现代供应链所需的速度和规模筛选入站半导体组件的完整性违规。

本文提出了一种非破坏性筛查方法，能够在系统集成前快速、可扩展地检测商用微控制器中的篡改。我们的方法利用电源侧信道测量和生成建模来识别异常行为，而无需可信硬件功能或设备修改。我们使用 ChipWhisperer-lite [4] 从执行标准化工作负载的微控制器收集差分功耗分析 (DPA) 轨迹。生成对抗网络 (GAN) 仅使用来自标称设备的功率轨迹进行训练，以学习良性操作的特征性功耗特征。然后，训练好的判别器在筛查期间充当单类异常检测器，将功率行为偏离学习基线的设备标记为需要进一步调查的候选对象。我们提出的方法在半导体供应链实践和政策的背景下进行评估，以评估其部署可行性和集成度。

2 供应链保证背景

2.1 微电子供应链风险

微控制器通过涉及许多公司和交接的分销网络进行设计、制造、封装、测试和运输。即使对于常规商业设备，在部件集成到最终平台之前，此路径通常也会跨越多家公司。当设备被更换、重新编程、翻新或维修时，会发生额外的交接。在集成之前，很难产生强有力的、单元级别的证据来证明设备是真实的、未经修改的，并且与物料清单 (BOM) 的假设一致。

风险始于设计阶段，在芯片制造之前可以集成第三方构建块和设计构件。它贯穿制造和封装过程，即设备被生产和准备分销。它延伸到电路板组装和平台集成，部件在此过程中被编程、配置并放入系统。最后，它持续存在于仓储维护和现场保障中，更换部件和固件更新很常见，并且来源的可追溯性可能比初始生产更难建立。

硬件木马和其他未经授权的硬件更改最有可能在设计或制造过程中引入，研究表明，此类更改可以被设计为在普通测试期间保持静默，仅在罕见条件下激活[5]。相比之下，固件和配置更改最有可能在编程、维修、翻新或仓储过程中引入，在这些过程中，合法的重新编程活动可能掩盖未经授权的修改。假冒和重新标记的组件增加了相关的风险，即设备可能在电气上是合理的，但并非其声称的部件，其可靠性和安全属性与预期不同。

保证责任是分散的。组件供应商、电路板制造商和集成商各自控制生命周期的不同部分，没有任何单一参与者具有完全的可见性。在国防和其他高后果环境中，承包商和系统集成商通常承担向政府客户证明合理保证的负担，而政府框架越来越多地期望风险控制将被记录、可重复并与系统关键性相关联[6]。

2.2 现有保证技术与可扩展性限制

高保证方法可以产生真实性和完整性的有力证据，但难以广泛应用。诸如X射线和CT等成像方法可以揭示某些物理异常和封装异常。更确定性的方法包括移除封装并检查芯片和层（通常是破坏性的），以及可以确认结构一致性的破坏性逆向工程。在可用的情况下，基于扫描的详细测试或专用功能测试可以更深入地了解设备行为，一些实验室在部件已被怀疑时应用侧信道分析作为调查工具。

这些方法可以为部件被信任或拒绝的原因提供清晰的技术依据。限制因素是操作性的。它们需要专用设施、昂贵设备、熟练的分析师以及每台设备的大量时间。某些方法会永久性地消耗部件。因此，这些技术通常应用于小的统计样本、高风险批次或被其他指标标记的设备，而不是应用于进入平台库存的每个单元。

因此，大多数组织依赖更快的验收实践，通常集中在功能检查和标准测试接口上。这些对于吞吐量是实用的，但它们对保持正常输入-输出行为的完整性更改提供的保护有限。这是硬件木马文献中的一个已知故障模式：恶意逻辑可以被设计为避免在常规测试下激活，仅在罕见的内部状态下触发[5]。同样，固件修改可以保持外部行为，同时更改在典型筛查期间不太可能被执行的控制流、权限或更新路径。

问题不在于是否存在强大的技术；而在于最强的技术无法以现代供应链的规模和速度使用。这造成了一个实际的保证鸿沟。全面筛查不可行，但一旦设备集成到关键系统中，即使少数受损或假冒部件的后果也可能是巨大的。

2.3 可扩展筛查层级的要求

可扩展筛查层级旨在缩小这一鸿沟。它并非旨在取代破坏性取证，也不能仅通过基本功能测试来满足。相反，它提供了一种可重复的、非破坏性的检查，可以广泛应用，并产生适用于操作使用的决策信号。可以根据测量的偏差而不是广泛的怀疑，来放行设备、隔离或选择进行更深入的取证分析。

为了适应采购、入站检验和仓储工作流程，此类筛查必须适用于未修改的商业设备，并且不能要求部件内置特殊可信功能。它必须足够快以支持常规处理，每单位时间与制造和维护环境兼容。它还必须产生可审计的输出，可以记录并与风险决策相关联，与当前指南和国防采办期望中处理供应链风险管理的方式保持一致。

在这些约束下，侧信道筛查很有吸引力，因为它从外部观察设备，同时反映内部活动。特别是功率测量，即使基本功能得以保持，也可以对指令组合、代码路径和硬件行为的变化提供敏感性。差分功耗分析 (DPA) 证实功率轨迹与内部计算相关，并且可以揭示通过普通输入-输出测试不可见的信息[7]。最近的工作将功率测量视为检测异常行为的带外信号，支持了在有限信任假设下功率可以提供完整性相关证据的更广泛观点[8]。

这创建了一个中间证据层：比简单的功能检查更强，但比破坏性分析便宜和快得多。在接下来的章节中，我们将评估使用生成方法对标称功率行为进行建模是否能满足这些要求，并作为供应链保证的实用筛查层级。

3 技术背景与相关工作

3.1 硬件木马与假冒检测

集成电路 (IC) 的安全性和真实性受到两个相关但不同问题的威胁：硬件木马（对IC逻辑或布线的恶意、隐蔽修改）和假冒部件（有时是回收的，来源或完整性已受损的设备）。在过去的十年中，文献围绕4大类检测和缓解技术趋于一致：成像和物理检查、布局级和设计时技术、片上传感器和内置自测试，以及通过参数化电测试进行统计筛查。每类技术应对不同的威胁模型，并在成本、侵入性、所需访问级别和供应链中的部署点方面存在权衡。

物理检查使用直接成像模式，例如光学显微镜、X射线/CT扫描、扫描电子显微镜 (SEM) 和聚焦离子束 (FIB) 横截面，通常结合自动图像处理和布局覆盖，以揭示芯片或封装中添加或修改的布线、额外单元或异常结构。这些方法提供高置信度的取证证据，可以暴露在代工厂或返工期间引入的更改。然而，它们耗时且耗费资源，并且常常具有破坏性或半破坏性（尤其是FIB/SEM工作流程）。它们通常还需要黄金参考图像或布局文件以进行可靠的差异比较；缺乏可信基线，解释变得主观且容易出错。因此，成像最适合针对性的取证分析，或者当必须对一小部分可疑设备进行认证时[9, 10]。

大量工作集中在设计验证和门级分析期间预防或检测木马。技术包括可控性和可观测性度量、未使用电路识别、形式化信息流检查、布尔功能分析，以及将网表建模为图以检测异常结构的新型基于图的学习。这些方法可以在制造前有效捕获插入的逻辑，并且可以自动化以扩展到大型网表。它们的核心限制是需要访问设计工件（寄存器传输级、门级网表或GDSII），并且通常假设能够与黄金或可信模型进行比较；因此，它们不适用于遗留设备或从原始设备制造商 (OEM) 下游获取的闭源商用现成品 (COTS) 组件[11, 12]。

嵌入传感器（例如环形振荡器阵列、电流/电压监视器、温度传感器）和扩展内置自测试 (BIST) 功能可以实现现场或制造时对恶意活动或异常运行特征的检测。因为这些方案可以监视运行时行为并触发条件，所以对高保证系统很有吸引力。缺点是需要设计合作和固件支持，因此对于现成的或已部署的部件不可行。此外，自适应攻击者可能设计避免触发这些监视器或操纵传感器输出的木马，而老化或环境变化等良性效应会使信号解释复杂化[10]。

假冒检测通常依赖于在制造或实验室测试中测量的电气参数的统计分析：IDDQ/泄漏、时序/频率分布、阈值电压，以及从受控扫描获得的模拟参数。通过将设备测量值与预期总体分布或黄金基线进行比较，可以标记出对应于回收、重新标记或假冒部件的异常值。这些方法比深度成像具有更高的吞吐量，并且可以是非破坏性的，这使得它们对供应链筛查很有吸引力。它们的局限性源于工艺和设备变异性、老化，以及正品但老化部件与假冒或返工部件特征之间的重叠；为COTS设备获取有代表性的基线分布可能很困难或昂贵[9]。

鉴于上述现实情况，存在一个对硅后、外部和设计无关的检测方法至关重要的利基。这些方法将在没有设计者合作、不修改硅、且仅能黑盒访问设备引脚或接口的情况下运行。这个利基对于主导许多供应链的遗留微控制器和COTS设备尤其重要。外部方法可以结合非侵入性电气指纹识别、侧信道测量（功率、频率、电磁）和旨在执行罕见触发条件的功能压力测试。通过专注于统计和侧信道特征，此类方法避免了深度成像的成本，同时保持了跨供应商边界的适用性。尽管如此，它们牺牲了一些检测粒度，因为它们通常比成像或设计感知技术更难以定位精确的插入电路，并且可能需要更大的样本量或更复杂的信号处理来控制误报[9, 10]。

3.2 防御性侧信道异常检测

侧信道分析历来被视为一种攻击性技术，最著名的是通过差分功耗分析和电磁 (EM) 泄漏攻击提取密码秘密。大量早期工作表明，可以从计算过程中无意的物理发射中恢复密钥和其他敏感参数。然而，最近的研究表明，侧信道也可以防御性地利用，为嵌入式系统的内部行为提供非侵入性可见性。在这种防御性框架下，功率和电磁发射被视为行为指纹而非泄漏源，从而能够检测未经授权的代码执行、固件修改和硬件木马[13, 14]。这种观点对于半导体供应链安全尤其重要，因为需要可扩展、非破坏性的筛查技术来应对商用现成品 (COTS) 组件。

功率和电磁侧信道信号编码了有关微架构活动、指令序列和控制流转换的详细信息。先前的工作已证明，不同的固件例程会产生可重复的侧信道特征，从而允许对合法执行进行指纹识别和验证。基于电磁的指纹识别方法表明，可以在不修改目标设备或嵌入额外传感器的情况下检测控制流或固件状态的偏差[14, 15]。类似的概念已应用于功率测量，其中特定例程的执行产生特征性功率轨迹，可作为完整性检查的基线[13]。

与旨在推断秘密的攻击性侧信道攻击不同，防御性方法将侧信道视为带外传感器。通过被动监测发射，外部观察者可以确定设备是否正在执行授权固件，即使调试接口被禁用或不可用。这一特性使得基于侧信道的监视对高保证系统和复杂全球供应链中的制造后检查具有吸引力。大量研究探索了电磁侧信道用于检测硬件木马和恶意修改。无芯片电磁统计分析已被证明可以识别由木马电路引入的异常行为，而无需对设备进行侵入性探测或物理修改[14]。随后的工作表明，电磁侧信道还可以揭示恶意固件或运行时恶意软件，特别是在与基于良性执行轨迹训练的机器学习分类器结合时[15, 16]。

基于功率的技术同样被用于检测未经授权的代码执行。通过功率侧信道进行控制流跟踪表明，功率轨迹可以与指令级执行相关联，从而能够识别意外的代码路径[13]。最近的努力集中在设备生命周期内的异常检测，建模功率特征如何随时间和跨操作模式演化[17]。值得注意的是，其中几项研究依赖于基于 ChipWhisperer 的测量设置来从微控制器收集高分辨率功率轨迹，说明低成本、广泛可用的仪器可以支持实用的防御性侧信道分析[17, 13]。基于神经网络的方法进一步扩展了这些思想，特别是对于电磁侧信道，其中使用学习到的模型将轨迹分类为良性或恶意[16, 18]。尽管在受控环境中有效，但这些方法通常依赖于监督学习，并且需要恶意行为的标记样本。

尽管前景广阔，但从可扩展供应链筛查的角度来看，现有方法存在局限性。许多研究强调电磁测量，这可能对探头放置、环境噪声和实验室条件敏感，从而在受控环境之外降低了可重复性[14, 15]。功率测量，特别是与 ChipWhisperer 式平台兼容的测量，通常更具可重复性，并且更容易集成到自动化测试工作流程中[17]。此外，许多文献侧重于实验室演示或运行时恶意软件检测，而不是明确的供应链筛查用例。筛查应用需要高吞吐量、最小的设备修改以及对先前未知威胁的鲁棒性。虽然机器学习被广泛使用，但大多数先前工作依赖于需要访问代表性恶意训练数据的监督分类器[16, 18]。在现实的筛查场景中，此类数据可能不可用或不完整，从而限制了泛化能力。最后，对于基于侧信道的完整性验证，生成式或单类模型的探索有限。因此，许多现有方法难以检测超出其训练分布的细微或新颖修改。

与先前工作相比，当前方法将功率侧信道视为可扩展、单类异常检测的基础，专为半导体供应链筛查量身定制。使用 ChipWhisperer 类工具收集的高保真功率轨迹用于对良性设备行为进行建模，而无需特定攻击的示例[17, 13]。生成模型能够学习合法功率特征的分布，并标记指示注入代码、固件篡改或硬件木马的偏差[19, 20]。这种框架明确地将侧信道分析从攻击性或运行时监视范式转向筛查和保证机制。通过强调功率而非电磁测量，以及生成建模而非监督分类，该方法解决了先前工作中的关键限制，并使侧信道分析与现实世界供应链安全的操作约束保持一致。

侧信道分析不再局限于秘密提取。先前的工作已证明，电磁和功率侧信道可用于对控制流进行指纹识别、检测恶意软件和识别硬件木马[17, 13, 14, 15, 16]。然而，现有方法通常依赖于电磁测量、实验室式设置或监督学习假设，限制了可扩展性。通过利用功率侧信道和生成式单类模型，防御性侧信道分析可以发展成为一种实用的、非破坏性的半导体供应链完整性保证工具。

3.3 基于 GAN 的异常检测

功率消耗和电磁发射等侧信道测量提供了对嵌入式系统运行时行为的直接视图。先前的工作已证明，功率轨迹编码了指令级活动、控制流和依赖于固件的行为，从而实现诸如代码执行跟踪和运行时完整性监视等应用[13, 17]。由于这些信号源自数字逻辑上的总开关活动，因此即使是固件或硬件结构的微小变化也可能导致侧信道行为的可测量偏差。从供应链安全的角度来看，这一特性尤其有价值。在制造、集成或固件供应期间引入的恶意修改通常被设计为通过保持标称输入-输出行为来规避常规功能测试。在现实的筛查和验证场景中，只有可信的参考设备或已知良好的固件映像可用，而可能的篡改策略空间是未知的，并且可能是无限的。这自然激励了单类或无监督异常检测方法，这些方法对正常行为进行建模并在不需要恶意活动标记示例的情况下标记偏差[17]。

生成对抗网络 (GANs) 为在这些约束下学习复杂的、高维数据分布提供了一个灵活的框架。GAN 由一个生成器 G（将来自潜在分布的样本映射到数据空间）和一个判别器 D（试图区分真实样本和生成样本）组成。通过对抗训练，生成器学习产生越来越真实的样本，而判别器学习一个分离真实数据和合成逼近的决策边界[21]。与显式密度估计方法不同，GANs 可以捕获诸如图像和时间序列等信号中的丰富结构，而无需手动设计特征。

在单类异常检测设置中，GANs 仅使用代表正常操作的数据进行训练。在这些条件下，判别器不会学习语义类别边界，而是近似正常数据分布的支持。学习到的支持之外的样本获得较低的判别器置信度，可以被标记为异常[22]。这种解释已在多个领域得到形式化和验证，包括视觉、医学图像和时间序列分析，其中异常示例在训练期间很少或不可用[23, 24]。

已经提出了几种使用 GAN 执行异常检测的策略。一种常见的方法是直接使用判别器输出作为正常性得分。因为判别器被优化以将真实训练样本与生成样本分离，它隐式地学习了正常行为的流形，偏离该流形会导致判别器置信度降低[22]。这种方法计算效率高，非常适合高吞吐量或实时应用。另一种策略依赖于重构或投影误差。在这些方法中，输入样本被映射到生成器的潜在空间，并测量原始样本与其重构之间的差异。无法准确重构的样本被假定位于正常数据流形之外[23]。诸如 GANomaly 和 OCGAN 等变体将重构误差与基于判别器的特征相结合，或对潜在空间施加约束，以改善正常样本和异常样本之间的分离[24, 25]。虽然有效，但这些方法通常由于迭代优化或额外的网络组件而产生更高的推理成本。

功率侧信道轨迹自然适合基于单类 GAN 的建模。过去的工作表明，功率测量可用于对固件版本进行指纹识别、检测控制流偏差以及识别嵌入式系统中的异常执行行为[13, 17]。与软件插装或片上传感器不同，外部功率测量是非侵入性的，并且不需要设计时合作，使其适用于商用现成品 (COTS) 组件和遗留设备。

4 系统与威胁模型

4.1 系统模型

拟议的筛查系统由三个部分组成：执行标准化工作负载的被测设备 (DUT)、捕获侧信道轨迹的功率测量设备，以及基于生成对抗网络的单类异常检测模型。系统分两个阶段运行。在注册阶段，从一组经过认证的良性设备收集功率轨迹，并用于训练 GAN。在筛查阶段，来自入站设备的功率轨迹由训练好的判别器评分，表现出异常分数的设备被标记以供进一步调查。

DUT 是一个商用现成品 (COTS) 微控制器或嵌入式设备，执行固定的加密或计算工作负载。工作负载必须是可重复的，并且跨设备产生一致的控制流，以便对功率特征进行有意义的比较。不需要对设备硅片、固件或封装进行修改，这使得该方法适用于设计访问不可用的 COTS 组件。通过外部电流感测收集功率测量，保持设备完整性，并使筛查后的单元能够在没有担心保修失效或诱发缺陷的情况下部署。

防御者控制测试环境，包括工作负载选择、测量参数（采样率、窗口持续时间、触发配置）、预处理步骤（裁剪、归一化）和模型训练超参数。防御者还根据所需的误报率校准检测阈值，从而能够根据可用的取证分析容量调整灵敏度-特异性的权衡。筛查不需要可信制造商合作，这反映了下游供应链场景中的现实约束[26]。

此工作流程的概述见算法 1 和图 1。

算法 1 功率侧信道筛查工作流程

1: 良性轨迹集 B, 入站设备 d, 判别器 D, 阈值 τ1%, τ5%

2: 函数注册(Enroll)

3: 从经过认证的设备在工作负载 W 下收集轨迹 B

4: 计算 B 的全局均值 μ 和标准差 σ

5: 在归一化的 B 上训练 WGAN-GP，存储判别器 D

6: 使用 B 的验证集校准阈值 τ1%, τ5%

7: 结束函数

8: 函数筛查(Screen)(设备 d, 操作点 τ)

9: 从设备 d 在工作负载 W 下获取归一化轨迹 x

10: 评分 s = -D(x)

11: 如果 s ≥ τ 则

12: 标记 d 以进行隔离和下游取证检查

13: 否则

14: 批准 d 进行集成

15: 结束如果

16: 结束函数

图1：系统模型概述

4.2 威胁模型

假设对手有能力在筛查设施上游的任何点修改设备固件或插入硬件木马。目标是在标准功能测试期间保持静默，仅在特定部署后触发条件下激活恶意功能。此类触发可能包括罕见的输入模式、密码颠覆机制或对共享资源的故意操纵。

威胁模型进一步假设熟悉目标微控制器架构，并了解筛查工作负载的高级知识，例如知道执行 AES 加密。对手无法获取筛查期间使用的特定明文输入、测量窗口的确切时间，以及训练好的模型参数和决策阈值。测量基础设施，包括信号采集、预处理和阈值校准，被假定完全由防御者控制，攻击者无法操纵。

检测明确限于在标准化工作负载下引起可观察功率消耗偏差的对抗性修改。那些在测量噪声基底以下运行的、仅在测试夹具不具备的环境条件下激活的、或者更改功能但未显著影响功率特征的攻击，可能会规避检测。这些约束将所提出的方法定位为一种补充保证机制，旨在增强而非替代更广泛的多模态硬件和固件验证技术。

4.3 安全目标

主要目标是在保持低误报率的同时，识别出功率消耗特征在统计上偏离所学良性基线的设备。异常设备被隔离并升级到高保证取证方法，如X射线成像或破坏性分析。筛查必须是非破坏性的，无需修改设备即可运行，并实现与入站检验工作流程兼容的吞吐量。

单类训练方法消除了枚举所有可能篡改变体的需要。模型学习预期的良性行为流形，任何偏差，无论是来自固件篡改、硬件修改还是假冒替换，都被视为潜在危害的证据。检测阈值被设定为实现 1% 到 5% 的目标误报率，确保大多数合法设备通过筛查，同时一小部分被选中进行更深入的检查。这使得能够在大量微控制器中高效分配昂贵的取证资源。

4.4 供应链中的部署点

4.4.1 生产线末端制造和最终测试

在制造阶段，筛查可以在封装和最终电测试之后立即集成，此时设备具有稳定的接口并且易于测量[27]。这个上游部署点提供了在分销前建立组件完整性的最早机会。可以按批次抽样进行筛查，或者在吞吐量允许的情况下，在发运前对每个单元进行筛查[6]。虽然这个位置提供了最广泛的覆盖范围，但它通常需要与制造商或授权分销商协调，并且可能无法被通过标准商业渠道获取组件的下游集成商访问[28]。

4.4.2 入站检验和电路板组装

对于许多组织来说，最具操作可行性的部署点是入站检验，即集成商首次接收购买的组件[6, 28]。在此阶段，筛查夹具可以自然地集成到现有的验收测试基础设施中。标准功能验证和边界扫描可以作为第一道过滤器，拒绝存在明显缺陷的部件，之后基于功率的筛查为通过基本 I/O 验证的设备提供第二层完整性检查[29, 8]。

这种两阶段方法优化了资源分配，因为大多数表现出功能正确性和正常功率特征的设备可以高置信度地批准用于组装，而判别器标记为异常的一小部分设备可以被隔离以进行更深入的调查[8]。根据风险承受能力和可用取证能力，这些被标记的设备可能接受X射线成像、开盖或破坏性逆向工程[30]。这种分层策略使集成商能够实现比每个设备都需要昂贵的取证分析可能达到的更高保证覆盖率，同时仍然将这些资源引导到最可能需要审查的单元[30]。

4.4.3 仓库、翻新和保障

在仓库进行筛查能够实现持续保证，而不是一次性的入站关口[17]。在固件更新、板级维修或部件更换周期期间，可以重新筛查组件[17]。对于使用寿命长的系统，这种重复验证能力在整个维护生命周期中提供了对组件完整性的持续可见性[8]。筛查可以在电路板级别（当可以实现足够的信号隔离时）进行，或者在重新编程或更换程序期间在组件级别进行[8]。

4.4.4 操作集成与模型管理

在所有部署点上，筛查架构都支持一致的操作模型。检测阈值根据可用的下游取证容量和可接受的检查开销进行校准，以实现目标误报率，通常为1%到5%[17, 24]。拥有更多取证资源的组织可以承受更高的误报率以最大化检测灵敏度，而资源有限的设施可以设定更保守的阈值以减少升级案例的数量[6]。

该方法确实需要规范的工作负载标准化和模型生命周期管理。筛查模型是设备特定和工作负载相关的，因为在一个微控制器上执行 AES 加密训练的模型不会泛化到不同的芯片架构或不同的计算工作负载[8, 17]。此外，固件版本、编译器工具链、时钟配置或电压域的变化可能会显著改变功率特征，从而需要重新训练模型[8, 17]。

实际上，这意味着将注册流程作为配置管理的一部分。当引入新的设备变体、更新固件基线或更改测量基础设施时，必须执行新的注册阶段以收集经过认证的良性轨迹并重新训练判别器[8]。可能还需要定期重新校准，以考虑环境漂移、夹具老化或影响标称功率特性的制造工艺变化[8, 17]。

然而，当进行系统化管理时，这种模型生命周期开销并不大于标准半导体测试和检查工作流程中已经存在的版本控制和校准要求[27]。筛查站可以作为自动化决策辅助集成到现有测试序列中，产生定量异常分数，为基于风险的升级决策提供信息，而无需人工解释原始功率波形[8]。

4.4.5 在分层保证策略中的定位

基于功率的筛查层级弥合了当前实践中的两个极端之间的关键差距。功能验证和基本电测试快速且廉价，但对保持标称输入-输出行为的复杂修改提供的保证微乎其微[8]。相反，高保证取证技术，如X射线断层扫描和破坏性去层，提供了硬件修改的有力证据，但速度太慢、成本太高，无法广泛应用[30]。

通过为每个筛查设备产生快速、定量的完整性信号，所提出的方法能够高效分配昂贵的取证资源[6, 30]。取证分析可以针对表现出异常功率行为的设备，而不是盲目抽样或主观判断[8]。这种数据驱动的优先级排序增加了取证投资应用于真正受损组件的可能性，同时避免了不必要的对合法设备的检查[6]。

其结果是形成一个可扩展的保证架构，其中大多数设备快速通过自动化筛查，一小部分被标记以供人工审查或更深层次的测试，更小的子集接受完整的取证检查[30]。这种分层策略实现了比仅使用取证方法可能达到的更高的有效覆盖率，同时保持与操作检查和保障时间线兼容的吞吐量[6, 30]。

5 实验方法

5.1 硬件与测试设置

Atmel XMEGA128D4 (XMEGA) 微控制器被选为本次实验的目标，作为嵌入式和信息物理系统中常规集成的辅助微控制器的代表示例。这些设备通常保留对安全相关或系统关键功能的直接控制，尽管它们不作为系统的主要处理单元。它们的支持作用通常使其处于详细取证评估和事件后分析的范畴之外，而这些分析通常侧重于更高级别的处理器和应用软件[31]。这种动态造成了一种局面，即看似外围的微控制器的受损可能导致系统级故障，使得此类设备成为信息物理攻击的有吸引力的目标。

可以在商用无人机 (COTS drone) 或无人航空系统 (UAS) 平台中找到这种架构模式的示例。XMEGA 可用作专用外设管理或安全控制器，而一个独立的、更高性能的处理器执行导航和控制算法。XMEGA 将负责诸如传感器轮询、电机使能和准备逻辑、电池电压和电流监视以及硬件级安全阈值的强制执行等功能。对此微控制器的操纵可能导致伪造的传感器读数、绕过安全联锁或故意破坏执行器控制，即使主控制处理器仍在正常运行。此数据流如图 2 所示。

图2： 代表性航电堆栈，说明了 COTS 无人航空系统中三级微控制器的作用。Atmel XMEGA128D4、STM32G0 和 ATSAMD21 是外围控制器的示例，这些控制器通常接受的取证审查有限[31]，尽管它们对安全相关功能行使权限并构成潜在的单点故障。

使用 ChipWhisperer-Lite (CW1173) 采集板与承载 Atmel XMEGA128D4 目标微控制器的 CW308 UFO 基板接口收集功率轨迹。此设置如图 3 所示。

图3： 实验性功率侧信道测量设置。ChipWhisperer-Lite (CW1173) 采集板与承载 Atmel XMEGA128D4 目标微控制器的 CW308 UFO 基板接口。CW308 平台暴露基于分流器的功率测量点和 SimpleSerial 接口，而 ChipWhisperer 提供同步时钟注入、触发和轨迹采集，用于可重复的功率侧信道分析。

ChipWhisperer-Lite 提供同步的轨迹采集和时钟注入，而 CW308 平台暴露目标的基于分流器的功率测量点和 SimpleSerial 接口，用于可重复的工作负载执行和触发对齐。

功率侧信道测量通过板载分流电阻获取，并以 10 位分辨率数字化。每次采集记录 5,000 个样本，裁剪为以 AES 计算为中心的 3,000 个样本分析窗口。使用默认的 SimpleSerial GPIO1 触发器进行同步轨迹采集，该触发器由目标固件在 AES 例程开始时置位，以确保跨采集的时间对齐。

模拟前端增益针对 0 至 3.3 V 电源域进行配置。目标通过 ChipWhisperer 时钟发生器经由 HS2 输出提供时钟，电源由 CW-Lite 平台直接提供。所有示波器参数遵循 ChipWhisperer-Lite 默认配置，以支持可重复性和与标准捕获工作流程的兼容性。

5.2 工作负载与篡改场景

基准工作负载执行针对 CWLITEXMEGA 目标平台编译的标准 ChipWhisperer SimpleSerial AES 固件。每个测量序列遵循 SimpleSerial v1.0 协议：通过 p命令将 16 字节明文发送到目标，微控制器使用预加载的加密密钥执行 AES-128 加密，并通过 r命令返回生成的密文。此配置建立了评估异常行为的标称操作基线。

为了评估跨多种威胁模式的检测性能，我们构建了一个复合篡改固件映像，包含四类不同的恶意修改。首先，实现了一个条件性硬件木马，仅当第一个明文字节等于 0x42 时激活，执行额外的依赖密钥的计算循环。这代表了旨在在标准功能验证期间保持静默的基于触发器的有效载荷。其次，通过辅助 SimpleSerial 命令 (b) 引入一个隐藏的后门命令，该命令返回一个固定的 16 字节秘密值。此后门路径在已分析的 AES 工作负载期间未被执行，因此作为工作负载绑定的功率侧信道筛查的阴性对照。第三，通过将每个输出密文应用一个单比特翻转来实现加密完整性违规，模拟诸如格式错误的 S-box 查找或不完整的密码轮次等细微损坏，这些损坏会降低加密安全性，同时保持结构输出有效性。第四，在 AES 计算之后附加一个固定迭代延迟循环，以延长执行延迟并提高瞬时功耗，与未经授权的数据泄露例程或资源利用一致。

良性和篡改固件变体均使用相同的工具链配置从相同的源代码仓库编译，并通过标准的 XMEGA 编程过程编程到目标微控制器。这种实验设计确保观察到的功耗特征差异归因于注入的恶意行为，而不是由编译参数、编程工件或环境条件引入的偶然变化。至关重要的是，篡改固件在标准测试向量方面保持功能等效，对正常输入产生密码学正确的输出，从而通过常规验收测试协议，同时在功率侧信道领域表现出可测量的异常。

5.3 数据收集与预处理

我们从良性固件收集了 2,000 条功率轨迹，从复合篡改固件收集了 2,000 条轨迹，每条轨迹包含 3,000 个时间样本，存储为 32 位浮点值。为了分离各个有效载荷的贡献，我们还为每个选择性篡改构建（条件木马、密文比特翻转、延迟循环和隐藏后门命令）捕获了 1,000 条轨迹，通过重新编译固件使得只有一个恶意机制保持活动状态。预处理流水线应用时间裁剪以提取样本 500 到样本 2000 之间的区间，隔离核心 AES 计算窗口，同时排除初始化开销和后处理操作。

通过计算所有良性训练轨迹的全局均值和标准差来执行归一化，随后使用这些统计量对良性验证集和篡改测试集进行归一化。这种方法确保模型学习良性执行的内在分布特性，而不是尺度或偏移的伪影。良性数据集被划分为 80/20 的训练-验证分割，1,600 条轨迹分配给模型训练，400 条轨迹保留用于阈值校准和超参数验证。所有篡改轨迹，无论是复合的还是针对每次攻击的，都完全保留在训练过程之外，并专门用于判别器检测性能的推理时评估。

5.4 GAN 模型与训练配置

我们采用了一个单类 Wasserstein GAN 带梯度惩罚 (WGAN-GP)，仅使用良性功率轨迹进行训练。生成器网络 G 将来自标准正态分布的 100 维潜在向量 z 映射到长度为 L 的合成功率轨迹。生成器架构由两个全连接隐藏层组成，分别具有 256 和 512 个单元，每个层后面是 ReLU 激活，最后是一个线性输出层，该层被重塑以产生形状为 (1, L) 的一维轨迹。

判别器网络 D 实现了一个一维卷积评论家架构，具有三个连续的卷积块，分别采用 32、64 和 128 个滤波器，每个滤波器后面是负斜率为 0.2 的 LeakyReLU 激活。卷积特征图被展平，并通过最终线性层处理，该层输出一个标量评论家得分 D(x)，代表输入轨迹 x 的 Wasserstein 距离估计。

训练遵循带有梯度惩罚系数 λgp = 10 和 ncritic = 5 的 WGAN-GP 目标，这意味着判别器每更新一次生成器就更新五次，以保持训练稳定性。两个网络都使用学习率为 1×10⁻⁴ 和动量参数 β1 = 0.5 和 β2 = 0.9 的 Adam 优化器进行优化。训练进行 400 个周期，批量大小为 128 个样本。在训练和验证阶段仅使用良性轨迹，以强制执行单类学习范式。

在推理时，新轨迹 x* 通过训练好的判别器 D 处理，异常分数计算为 s(x) = -D(x)，其中较高的分数表示与学习到的良性分布偏差更大。检测阈值在良性验证集上校准，以实现目标误报率，例如 1% 或 5%，从而能够根据操作要求和下游检查容量灵活调整灵敏度-特异性权衡。

5.5 基线与异常评分

主要的异常评分机制使用取反的判别器输出，其中较低（更负）的评论家得分对应于与学习到的良性流形有更大偏差的轨迹。阈值通过排序良性验证分数并选择实现所需 1% 和 5% 误报率的截止点来经验确定。这种校准方法确保筛查系统可以进行调整，以匹配可用的取证分析容量，同时在各种部署环境中保持一致的错误率。

6 结果

6.1 各场景的检测性能

判别器使用 1,600 条良性功率轨迹进行训练，另外 400 条良性轨迹保留用于验证和阈值校准。检测性能在从复合恶意固件收集的 2,000 条篡改轨迹上进行评估。使用取反的判别器分数作为异常度量，模型实现了 0.995 的接收者操作特征曲线下面积 (ROC AUC)，表明良性和篡改分布之间有很强的分离性。在 1% 的误报率下，真正例率为 0.932，意味着 93.2% 的被篡改设备被正确标记，而只有 1% 的良性设备触发误报。在 5% 的误报率下，真正例率增加到 0.971，捕获了 97.1% 的被篡改设备。

表 1 总结了所捕获数据集的特性。所有轨迹均由 3,000 个时间样本组成，没有缺失或无效值。

复合篡改固件在功率特征的多个维度上产生了可测量的扰动。条件执行路径导致了间歇性的功耗升高脉冲，产生了良性基线中不存在的时序变异性。辅助协议处理的引入改变了时序特性，并转移了通信阶段的瞬时电流消耗分布。对加密输出处理的修改引入了对下游计算模式的细微变化，影响了轨迹后期部分功耗的统计特性。计算后延迟循环的添加持续提高了平均功耗并延长了执行时间，产生了与标称能量分布的持续偏差。图 4 和图 5 绘制了 ROC 曲线以及支撑这些定量声明的良性和篡改分数直方图。

这些扰动反映在判别器分数分布的强烈分离上。篡改轨迹始终比良性轨迹获得更高的异常分数，篡改轨迹的中位数分数约为 9.70，而良性轨迹约为 9.41。判别器成功地学会了识别这些偏差，尽管仅使用良性示例进行训练，这表明单类公式可以泛化以检测多种篡改模式，而无需事先了解特定的攻击实现。图 6 和图 7 重点展示了代表性的波形叠加和最异常的篡改轨迹，以说明这些偏差的时间结构。

表 1：捕获的数据集（原始轨迹，单设备/会话）。

类别	轨迹数	样本数	最小值	最大值	均值	标准差
良性	2,000	3,000	-0.253	0.118	-0.013	0.067
篡改	2,000	3,000	-0.241	0.118	-0.012	0.067

表 2：复合篡改固件的检测指标（单设备/会话）。

场景	AUC	TPR@1% FPR	TPR@5% FPR	Thr@1% FPR	Thr@5% FPR
Tampered_aes	0.995	0.932	0.971	9.566	9.534

为了将这些汇总结果归因于单独的威胁机制，我们将 XMEGA 重新编程为 4 种选择性篡改配置，每次只启用一个有效载荷（罕见触发木马、密文比特翻转、延迟循环或隐藏后门命令），并使用相同的捕获设置为每种变体收集了 1,000 条轨迹。表 3 报告了每次攻击的判别器性能。即使在 1% 的误报率下，控制流繁重的木马和延迟循环工作负载仍然可以轻易分离，而细微的密文扰动仍然实现了 0.94 的可辩护 AUC，在 1%/5% FPR 下达到 0.53/0.70 的 TPR。后门命令构成了工作负载绑定筛查的阴性对照。在此配置中，恶意功能只能通过一个辅助的 SimpleSerial 命令路径访问，该路径在已分析的 AES 工作负载期间不执行。因此，在 AES 触发的采集窗口下捕获的功率轨迹在统计上与良性轨迹无法区分，判别器产生随机水平的性能。这个结果是预期的，它突显了侧信道筛查仅为标准化工作负载执行的代码路径提供保证。

表 3：每次攻击的检测性能（每个场景 1,000 条轨迹，单设备/会话）。后门命令是阴性对照。

场景	AUC	TPR@1% FPR	TPR@5% FPR
条件木马	1.000	1.000	1.000
密文比特翻转	0.944	0.526	0.701
延迟循环插入	0.9998	0.998	0.998
后门命令	0.000	0.000	0.000

6.2 分数分布与特征空间结构

经过符号校正后，判别器分数分离良好，良性中位数分数 ≈ 9.41，篡改中位数分数 ≈ 9.70，重叠很少，如图 4 和图 5 所示。相同的操作点产生了如图 8 和图 9 所示的混淆矩阵，其中垂直热力图按异常分数对轨迹排序，并揭示了在 1% FPR 下预期的假正例的窄簇。图 10 和图 11 进一步证实，判别器嵌入将良性和篡改轨迹放置在特征空间的不同区域，而 GAN 训练曲线平稳收敛，没有不稳定性。

图4： 在 AES 工作负载下，良性与篡改功率轨迹的接收者操作特征 (ROC) 曲线。

图5： 良性和篡改功率轨迹的判别器分数分布。

图6： 代表性良性和篡改功率轨迹的叠加，突出了恶意修改引起的时间偏差。

图7： 按判别器分数排序的最异常篡改功率轨迹。

图8： 轨迹-分数排序热力图，说明了良性执行和篡改执行之间的分离。

图9： 在对应于 1% 误报率的选定操作阈值处的混淆矩阵。

图10： 判别器激活的低维嵌入，显示了良性和篡改轨迹之间的分离。

图11： 生成器和判别器训练曲线，展示了稳定的 WGAN-GP 收敛。

6.3 时序与吞吐量考虑

在 CW-Lite 上捕获（2,000 条轨迹，每条 3,000 个样本）花费了数分钟，更少的轨迹会以一定的准确性为代价缩短时间。在 CPU 上训练 400 个周期花费了数十分钟。推理是轻量级的（通过判别器 D 的前向传播），一旦轨迹被捕获，就适合内联筛查。与 X 射线/CT 或破坏性分析（每个部件数小时到数天）相比，这对于“第 2 层”筛查来说足够快，硬件加速或更少的轨迹可以进一步减少每单位时间。我们包含了训练曲线和每轨迹可视化（轨迹叠加和顶部异常轨迹），以展示优化如何进行以及异常如何在波形域中显现。

7 讨论

这些结果表明了一种实用的供应链筛查方法，连接了基本功能测试和昂贵的取证分析。该方法无需制造商合作或可信参考硬件即可运行，使其适用于通过标准渠道获取的商用现成品 (COTS) 组件。通过仅使用良性示例进行训练，该方法避免了需要预测特定攻击实现的需要。定量的异常分数使组织能够根据其可用的取证容量调整灵敏度，创建一个灵活的筛查层级，可以适应不同的操作约束和风险承受能力。

良性和篡改轨迹都是在单一测量会话中在单个目标微控制器上收集的，这限制了这些结果对其他设备的外部效度。未来需要在多个设备、捕获会话和夹具配置上进行验证，以建立可扩展部署的鲁棒性。虽然选择性固件构建提供了每个有效载荷的见解，但每个实验仍然依赖于 SimpleSerial AES 工作负载和单个触发窗口。扩展到额外的微控制器和固件，以及集成互补的可观测量（时序、电磁或功能自测试），是未来工作的重要方向。

微控制器在到达电路板组装线和系统集成商之前，通常要经过国际制造、封装和分销渠道。这种结构造成了持续的暴露风险，即一个组件在制造时可能是真实的，但后来仍可能通过替换、重新标记、翻新或下游修改而变得可疑。一种可扩展、非破坏性的筛查方法，可以对入站货物和更换部件运行，为买方提供了一种将基于证据的检查引入供应链的方式，否则该供应链在很大程度上由文档和合同保证管理。

在国家层面，这种筛查能力支持将半导体完整性视为常规供应链控制而非例外取证事件的转变。当前的联邦指南强调，供应链风险管理应通过可重复的控制和整个生命周期中的有记录的决策来操作化，但大多数组织缺乏可以大规模应用的技术机制。一个实用的筛查层级通过为集成商和承包商提供一个可辩护的依据，在现实约束下接受、隔离或升级部件，从而加强了对现有要求的执行，这与国防采购中的防假冒期望以及基于风险的可信系统实践直接相关。

在国际层面，其含义不是筛查取代了可信的供应商关系，而是使它们在一个多层市场中更具韧性。盟友可以在关键瓶颈点（如合同制造商、集成站点和维护仓库的入站检验）协调共享的筛查实践，从而使完整性检查不限于一小部分高端实验室，也不仅在事件发生后应用。这通过增加对大量商用组件覆盖范围，同时将稀缺的取证方法保留给引发关注的一小部分单元，直接提高了供应链安全性。它也解决了一个有据可查的政策问题，即假冒和可疑部件曾进入过高后果供应链，而损害通常在集成后发现得很晚，此时补救成本最高。

8 结论

当前的半导体供应链安全实践缺乏在功能测试和昂贵的、大规模的取证分析之间检测未经授权的硬件修改的方法。本文证明，侧信道功率测量结合单类生成对抗网络能够检测篡改的微控制器，在多种篡改场景下，以 1% 的误报率实现了 93.2% 的检测率。这种方法提供了一个实用的中间筛查层级，将昂贵的取证资源导向异常设备，在无需对每个组件进行全面检查的情况下，大幅提高了供应链覆盖范围。