分层时空状态机在仪表盘制造中的应用

HSTSM在仪表盘制造中的应用

最新推荐文章于 2025-12-10 09:01:46 发布

原创最新推荐文章于 2025-12-10 09:01:46 发布 · 672 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#HSTSM #故障检测 #深度神经网络

用于车辆仪表盘制造的分层时空状态机

摘要

车辆仪表盘是现代汽车中最为先进且复杂的电子嵌入式控制系统之一，为驾驶员提供控制和判断车辆状态的界面。本文提出一种新型混合方法，称为分层时空状态机（HSTSM）。该方法解决了复杂动态系统中的时空推理问题，基于记忆‐预测框架和深度神经网络（DNN），用于车辆仪表盘自动检测与制造过程中的故障检测与隔离。该技术已与现有方法进行了比较，包括基于规则、基于模板、贝叶斯、受限玻尔兹曼机和分层时序记忆方法。结果表明，所提出的方法能够在实时工作条件下成功诊断并定位多种类型的故障。

索引术语

时空推理，故障检测，故障隔离，神经网络，受限玻尔兹曼机，分层时空状态机，深度置信网络，数据分析。

一、引言

INSTRUMENT 聚类（集成电路(ICs)）作为主要界面，用于显示多种驾驶员信息，并在车辆内提供辅助系统。与其他许多车辆部件一样，集成电路(ICs)的制造也采用基于计算机的制造系统。此类系统配备了各种不同的设备和控制系统，以制造出能够满足客户需求的产品。现代基于计算机的制造系统由多个制造单元组成，执行一系列装配操作和功能测试。这些单元由定制软件控制，以监督特定的生产工艺。

在监督制造工厂的计算机所承担的最重要任务中，有一项是检测和诊断产品故障。许多制造工厂中常用的故障检测方法包括使用统计过程控制（SPC）[1]进行的限值检查。SPC简单、稳健且可靠，但对于过程特性的变更反应较慢。SPC无法识别仅通过观察数据模式及其随时间变化才能发现的复杂故障。该方法忽略了由制造数据的时空特性所产生的复杂数据模式，限制了其有效性和故障检测能力。

人工神经网络（ANN）已被证明在图像和语音识别等任务中表现出色[2],[3]。ANN是由神经元组成的网络，通过一系列非线性变换学习非常复杂的函数。近年来深度学习技术的发现[4]能够更高效地学习并对新数据点进行泛化。人工神经网络已被用于解决故障诊断问题[5]。然而，大多数先前的工作使用浅层神经网络，主要集中于监督学习以实现故障检测与隔离（FDI）功能。因此，现有方法无法检测新颖的、未见过的故障类型。

分层时序记忆（HTM）是一种基于神经科学最新发现的成功算法。HTM是一种受哺乳动物新皮层启发的机器学习模型，由分层连接的节点组成，其中每个节点代表一组皮层柱的简化模型[6]。它与目前大多数人工神经网络（ANN）模型中广泛使用的更为简单且数学上易于理解的实现方式形成对比。HTM已成功应用于多个复杂问题，例如车牌识别[7]。

本文提出了一种针对基于计算机的自动检测系统中故障检测与隔离（FDI）问题的新方法。该方法能够基于预测学习和优化，识别输入模式的时空序列之间的相关性，其优化目标是最小化输入向量的预测值与实际值之间的距离。所提出的方法提升了现有FDI系统的检测、隔离和预测能力，降低了因性能下降和设备停机时间带来的成本，同时提高了一次通过率（FTY）、可靠性和质量。相关结论得到了在实际生产线上进行实验的支持，实验用于测量系统在不同故障条件下的性能表现，包括首次引入系统的新型故障。此外，该系统的性能还与其他广泛使用的FDI技术进行了比较。

所提出的方法是在制造系统背景下提出的；然而，有可能被应用在传感器融合[8],智能车载通信[9],[10]定位[11],移动数据通信[12],驾驶员辅助系统[13],数据检索[14]等领域。

本文的其余部分组织如下。第二节中的文献综述介绍了当前在汽车制造系统中使用的故障检测与隔离方法的概述。第三节描述了所提出的自动化检测故障检测与隔离系统，并概述了其中包含的方法、系统架构和工艺阶段。第四节展示了在实际生产线上观察到的所提出系统的实验及性能结果。结论和对未来工作的考虑可在第五节中找到。

II. 文献综述

确保制造生产线无故障运行的传统方法是定期检查过程变量。这些变量包括软件配置验证、传感器验证、测量设备校准和预防性维护。该方法按照定期计划和明确定义的预设程序执行。然而，这种方法无法检测其他类型的故障，例如只能通过连续评估过程变量才能发现的早期过程故障。由于工艺复杂性的增加以及生产设备的日益精密，这种方法在大规模基于计算机的生产线上已不再具有成本效益，在许多情况下甚至难以或无法实施[15]。因此，人们已投入大量资金开发新的方法，以更系统地解决这一问题。

故障检测与隔离方法主要可分为两大类：硬件冗余和解析冗余[16]。基于冗余的方法的核心思想是生成一个信号，该信号表示被检测系统在正常运行状态与实际测量行为之间的差异。通过分析该信号及其在机器正常运行期间的变化情况，可以检测到故障发生。根据这一描述可以很容易地推断出，硬件冗余或并行冗余是通过硬件实现来生成残差信号的[17]。

硬件冗余方法的基本思想是使用多个传感器测量给定的工艺变量，并通过执行一致性检查来检测故障。该故障检测与隔离（FDI）技术依赖于投票机制，对冗余组件进行一致性检查，以确定故障发生及位置[18]。

硬件冗余的一种替代方法是解析冗余。该方法不使用额外的硬件，而是为监控过程建立一个数学模型，并将模型中不同变量之间通过数学推导得到的关系（作为参考）与实际系统输出[19],[20]进行比较。这些关系的测量值与系统输出之间的任何偏差称为残差，可能表明系统存在故障。在无故障的系统中，残差信号理想情况下应等于零。然而这种情况很少出现，通常即使没有观察到故障，残差也不为零。这种情况是由测量不确定性与噪声[21]引起的。

为应对这一问题，需设置一个阈值为了防止误报，通常会对残差信号进行设定。基于解析冗余的故障检测与隔离系统包括残差生成（用于产生残差信号）和残差评估（用于推断系统的故障状态）。基于解析冗余的故障检测系统通常被称为基于模型的系统，不需要额外硬件的昂贵安装和维护，相较于基于硬件冗余的故障检测与隔离系统[22]具有明显优势。

实现这些模型的三种最常见框架是基于数学的、基于专家系统的以及基于计算智能（CI）的框架，如图1所示。在基于数学的框架中，通过工艺的基于物理的数学模型来实现残差生成。该框架旨在找出模型产生的系统预期行为与实际系统输出之间的差异[23]。

基于专家的框架则利用系统的专家知识来识别症状并推断系统状态[24]。最后，基于CI的框架使用传感器测量的工艺历史数据生成残差信号，并检测工艺故障[25],[26]。

III. 用于故障检测与隔离的分层时空状态机（HSTSM）模型

本文介绍了用于故障检测与隔离（FDI）的一种新型时空生成模型，即分层时空状态机。所提出的方法集成了四种软计算技术：深度置信网络（DBN）、自编码器、凝聚层次聚类和n阶马尔可夫链。HSTSM的功能步骤可以通过信息层次模型（见表I）来理解，例如DIKW（数据、信息、知识、智慧）金字塔[27]，用以表示数据、信息、知识和理解之间的结构与功能关系。

HSTSM各步骤的图示如图2所示，每个步骤的描述如下。

A. 数据采集

关于本文所述的真实世界系统，已确定以下数据为关于该工艺的信息源:

集成电路生产工艺中各个部件产生的统计过程数据。
•由监测集成电路工艺不同特性的各种传感器生成的原始输入数据。
来自监控工艺的数字传感器的离散输入/输出信号。
•设备的顺序和时序行为（单个任务时间、相对执行时间、测试执行时间等）数据的组合可被视为多维输入空间中的一个唯一点。
原始数据通过统计过程控制数据编码器转换为二进制向量，以建立对底层过程输入与输出之间复杂关系的理解。

B. 统计过程控制数据编码器

为了有效利用之前描述的数据采集过程，需要对输出数据进行特定编码。该编码用于将一个或多个源字母表中的符号唯一地表示为目标字母表。在此情况下，目标字母表需满足以下约束条件：编码字符串必须是二进制的、稀疏分布的，并且必须以有意义且易于解释的方式表示不同的物理特性。

在制造过程中，产品会经历一系列由人工劳动和自动化过程共同执行的装配和测试操作。这些操作可被视为随时间发生的离散事件集合。每个事件都会生成一些相关的工艺数据。

示意图0

表I 分层时空状态机 ‐ 涉及的步骤

这些数据可以通过多个专用传感器进行测量、监控和记录。尽管该事件序列是连续且无限的，但可以识别出一个时间单位 ti，在此时间单位内，事件集合 β是有限的，并可被离散化。此处所说的时间单位指的是一个可测量值，它是时间的函数 f(t)。对于大多数制造工艺而言，一个显著的时间单位可以是一系列测试和装配事件，而这些事件又可进一步划分为单项测试。因此，对制造工艺进行离散化的最自然方式就是将其划分为可重复的单项测试或操作序列。

以这种方式定义时间单位的最大优点是，特定工艺 E 的测试集合是有限的，且易于界定。在每个 ti 时间步长，都可以为该模型确定一组固定数量的参数（信号）。设 ∑ ⊆ N 为所有可能测试的集合， ϕ ⊆R 为在时间 ti 时对应测试的所有可能值的集合，T ⊆ R 表示以秒为单位的测试时间，即 ti+1 − 与 ti 之间的差值，Z ⊆{0,1} n 表示特定设备在测试执行前后所有可能的离散输入/输出信号的集合。

在时间 ti 时编码器的输入形式为 (s,v,c,z)，其中 s∈∑ 是一项测试，v∈ϕ 是在时间 ti 时某项特定测试的值，c∈T 是该项测试的周期时间，zi∈[z1, z2,…, zn] T 是设备在测试执行前后生成的所有离散输入/输出信号的向量。编码器的主要功能是将上述定义的输入映射为 HSTSM 可理解的离散信号。输入中的某些参数本身具有离散特性，其余参数 (s,v,c) 必须被映射到离散转换的空间中。首先考虑的是测试 s∈∑。

为了将值 t 离散化为包含 n∈N 个元素的二进制向量，其中 n 等于第i个的值 | ∑|, 表示相应测试的元素被设置为1，该向量的所有其他元素被设置为0。对于表示相应测试输出值的v∈ϕ，此操作更为复杂。必须记住，离散化过程总是会为数据引入误差。在这种针对实数值的离散化方法中，误差的大小是所用分辨率的函数。使用的分辨率越大，数据中的误差越小，反之亦然。此处的分辨率指的是将某个属性范围划分成的区间数量。在本研究中，每个测试值使用了40个区间。每个区间代表一个二进制向量X=(x1,x2,,…,x40)∈{0,1}40中的一个元素。

每个测试的区间按以下方式计算。取与n次测量成比例的随机样本数，并计算均值 μ和标准差 σ。区间宽度 W的计算如下：W = 1/4σ。对于向量X中的每个元素xi ，如果输入值v满足∈[μ −(20−i)W,μ −(21−i)W ]，则将其二进制值设为1；对于所有其他元素，该值设为0。如果值v < μ − 20W，则x1= 1和x2= 0,x3= 0,…,x40= 0；如果v > μ − 40W，则x40= 1和x1= 0,x2= 0,…,x39= 0。对于所有c‐周期时间的值，使用上述定义的编码器将c编码为C =(c1,c2,… , c40)∈{0,1} 40。这种方式编码的输入示例见图3。

示意图1

该示例展示了将一项制造测试分解为独立组件及其编码后的输出值。这些输出值被连接以形成输入向量。所展示的示例经过简化以便于视觉化。典型的测试包含更多的数字和模拟信号。

编码器生成的所有独立向量被连接起来，以创建一个二进制输入向量 v=(s1,s2,…,sk,v1 , v2,…, vn, c1, c2,…, cm, z1, z2,…, zl)，该向量用作HSTSM的输入。为了处理数据集中的缺失信息，使用了给定属性的编码后的均值，从而确保系统具有最小偏差。

C. 用于空间降维的深度置信网络与自动编码器

考虑一组测试，它们之间可能存在特定方式的相互关联。将此类知识纳入模型并嵌入其中的一种解决方案是设计一系列描述这些相关性的基本规则。在大多数制造工厂中，利用专家知识对观察到的复杂技术过程进行建模的方法往往效率低下且不切实际。这些规则必须通过数据分析过程手动发现，而对于大多数复杂的制造工艺而言，这需要大量的人力投入。每当引入新工艺时，都必须重复这一过程；而对于现有工艺，每次发生变更时，都需要添加或修改部分规则，从而导致持续不断的监督过程。从这个意义上讲，有必要考虑一种更加自动化的方案。在过去十年中，人们发现了一系列无监督机器学习技术，成功推动了该目标在多个应用中的实现。如果不同测试之间相关性的隐含原因被视为需要发现的潜在特征，则该任务可表述为一个特征提取问题。一种用于多层表示的高效特征提取方法称为深度置信网络（DBN），它是一种由多层隐藏单元构成的生成式图模型。这种连接的分层结构形成了DBN。

DBN由多个简单的无监督模型堆叠而成，其中每一层连续的隐藏层都作为下一层的可见层。在本研究中，采用受限玻尔兹曼机（RBM）模型来构建DBN。RBM能够执行因子分析的二值版本，以发现解释底层数据的潜在特征，并识别训练数据中的复杂规律。利用这些潜在特征有助于发现系统中的特定故障。RBM是一种随机神经网络，包含一层隐藏单元和一层可见单元。它是一种无向图生成模型，每个可见单元都与所有隐藏单元相连。它通过使用隐变量来建模可见变量的分布。RBM基于能量项，如[28]中所述。

杰弗里·辛顿提出了一种名为对比散度（CD）的训练算法，该算法是对对数似然梯度的一种近似，使用以输入初始化的吉布斯采样器。关于RBM及其训练方法的更多信息见 [29]。尽管RBM是一种强大的工具，但单层二值特征无法以最优方式表示数据中的规律性。通过以逐层方式堆叠多个RBM，可以创建出能够在层次化方式下表示特征的更优模型。已证明，在满足[28]中所述的所有要求的前提下，通过添加附加层可以提高模型对训练数据分配的对数概率的下界。以此方式构建的结构称为DBN，其图形表示如图 4所示。通过堆叠多个RBM层所形成的结构按以下方式进行训练。首先训练RBM

示意图2

使用数据作为输入并带有一个隐藏层进行训练。然后，将第一个受限玻尔兹曼机的隐藏激活作为输入传递给第二个受限玻尔兹曼机以处理到下一层，此过程重复进行，直到达到最后一层。通过这种方式，创建了多层特征表示，其中每一连续层都是对输入的更高级别表示。

由堆叠的受限玻尔兹曼机构成的深度置信网络（ DBN）可与深度自编码器结合用于降维，以更紧凑的方式表示数据[30]。在这种情况下，必须在某一层中引入瓶颈。受限玻尔兹曼机用于对深度自编码器(DAE)的各个层进行预训练，该方法可确保获得良好的解逼近效果。生成的权重矩阵随后用于初始化DAE[31]。预训练之后采用多种反向传播技术之一对自编码器进行微调。该过程有助于找到更优、更紧凑的数据表示形式。此步骤降低了数据维度，并确保模型其余部分基于更优且更紧凑的输入数据表示进行工作。

D. 层次聚类到n类

理解不同的输入向量如何相互关联，对于新颖性检测问题以及更广泛的无监督故障检测至关重要。聚类分析（也称为数据分割）有助于构建底层数据的层次表示。这是为了学习各个数据点的位置如何变化，并通过使用距离函数，可以假设它们之间存在某种形式的相关性。通过获得这种理解，可以评估新输入数据点与训练期间使用的数据点之间的差异。

故障检测的主要任务之一是针对模型首次见到的新输入数据点进行分类，同时考虑这些数据点在某些方面与训练期间可用的数据点的差异程度。只有在能够构建出良好的“正常”数据模型时，才能成功完成此任务。聚类分析技术可用于构建此类模型，还可以弥补构建非正常类别显式模型所需的“异常”数据不足的问题。在所提出的方法中，采用凝聚层次聚类[32] ，该算法生成一个树状图，以图形化方式展示底层数据的层次结构，说明数据点在由深度置信网络（DBN）生成的高维潜在特征空间中的组织方式。

为了减少树状图的平面对聚类（即聚类集合之间没有明确结构来关联各聚类），通常会在距离上选择一个“切割”树的距离阈值。这是为了减少聚类数量，同时为聚类集合添加结构。在HSTSM背景下，分层聚类用于将压缩表示（表示为自编码器瓶颈层的隐藏特征）编码为一个唯一状态（该状态是代表底层过程的所有可用状态集合中的一个元素）。该集合中的元素数量等于发现的聚类数量，并取决于与所获得树状图一起使用的距离阈值。与 HSTSM结合使用的分层聚类是一种对输入向量中的空间相关性进行聚合的元素，将其表示为底层过程可生成的可能状态集合中的一个唯一状态。

E. 使用n阶马尔可夫模型的状态编码

到目前为止，已经描述了输入数据的空间特征（也可以用HTM术语称为空间池化）。本文提出使用n阶马尔可夫模型来解决将制造数据因果关系的时间知识融入所提模型的问题。通过扩展方法以结合n阶马尔可夫模型，可以推断出底层数据中的空间和时间规律性。因此，可以学习在时间和空间上发生的活动模式。通过这种方式，可以检测从数据中记录的事件序列中的规律性，从而理解潜在故障的发生方式，并帮助学习由底层过程生成的时间模式。

为了实现这一点，需要将多维数据编码为一系列个体状态。前一步生成的聚类明确用于此任务，允许将各个数据点编码为一个唯一的系统状态。这些个体状态以顺序方式依次出现，形成一个马尔可夫过程。假设底层制造过程根据某些转移规则改变状态。HSTSM这一步骤的目的是发现这些转移规则及其概率，并将这些时间模式存储起来，用于未来的推理和预测过程。本工作中使用的时间数据的标准概率模型称为n阶离散马尔可夫链。它假设当给定当前状态时，未来状态与过去状态无关。当一阶马尔可夫链不足以全面描述状态之间的转移时，通常使用n阶马尔可夫模型。

F. 残差向量获取

设Sin(t −1 )为在时间t − 1通过编码输入向量Vin(t −1 )获得的监控过程的前一状态。该编码分两个阶段进行。首先，向量Vin ( t−1 )通过训练好的DBN模型处理，以生成特征向量Vdbn ( t−1 )。接着，选择距离向量Vdbn ( t−1 )最近的聚类作为

示意图3

前一状态Sin(t−1)。通过使用n阶马尔可夫模型的转移矩阵，可以预测监控过程的当前最可能状态Sin(t)。该状态Sin(t)可以被解码为预测向量Vpred(t)的形式，表示由DBN学习到的多维特征空间中的一个点。因此，如果Vin(t)是监控过程的当前输入向量，则可通过DBN将Vin(t)映射到特征空间，生成Vdbn(t)。可以创建一个新的向量Vresidual，使得V residual= Vdbn(t) ‐ Vpred(t)。Vresidual中所有元素之和将衡量模型认为的输入状态与实际输入之间的差异程度。该向量可用于进行故障发生的基本推断。后续展示的结果表明，通过对该度量引入阈值，可以构建一个基本分类器，成功检测系统中的故障。然而，通过使用整个向量Vresidual可以获得更好的结果，其中向量的所有单个元素均用作分类器的输入。使用Vresidual对于隔离系统中的故障也是必要的。

从Vdbn(t)减去Vpred(t)的方法有助于忽略数据中的规律性，换句话说，忽略模型正确预测的部分，仅关注差异，从而使故障分类更容易。两个向量之间的差异表达了系统正常行为与实际行为之间的不规则性。Vresidual可与任何监督式机器学习分类算法结合使用，以识别故障的类型和发生。

在本研究中，为此目的使用了一种名为多层感知机(MLP)的人工神经网络算法。该MLP包含单个隐藏层，并以Vresidual作为输入。激活函数tanh被使用，且网络通过随机梯度下降进行训练。所使用的目标函数是负对数似然。对于多类分类问题，神经网络的输出层使用softmax激活函数。此推理过程如图5所示

示意图4

IV. 实验结果

所提出的方法在实际生产装置上进行了为期一周的测试，用于执行集成电路(ICs)的自动化功能检测。本研究使用的生产系统为宝马MINI F56集成电路自动化检测系统，配备有57个数字输入信号（连接至相应的数字传感器）、34个数字输出控制信号、一个自动视觉系统以及多个连续信号（由指定的测量设备进行检测）。所有样本均由机器通过部件检测、校准和机器操作工艺自动生成。整体检测过程可概括如下：首先由操作员将一个部件装入自动检测设备；该设备识别到部件存在后，会根据被检部件的变体执行相应的测试序列。机器首先通过汽车接口网络（CAN）协议连接到集成电路（IC），并初始化IC与测试仪之间的连接。在自动检测过程中，测试仪通过CAN接口向IC发送一系列CAN消息。这些消息由IC中的微控制器内的专用固件进行解释，并由仪表集群单元（ICU）执行相应操作。检测设备利用多个传感器和测量装置，检查对CAN消息的响应以及测试仪生成的各个数字信号。检测设备执行的部分测试包括：打开或关闭转向指示灯，使用摄像头系统检查其功能是否正常，检查指示灯的形状和颜色，将指示仪表移动到多个不同位置，检查仪表位置的正确性，以及检查产品的多项电气特性（例如步进电机驱动器的输出以及其他音频、视觉、机械和电气特性）。

用于训练学习模块的数据由15,000个样本组成，分为训练集（70%）、验证集（15%）和测试集（15%）。训练数据集用于确定所提出生成模型的权重和偏置。为了评估HSTSM的分类和新奇性检测能力，我们在静态空间域中评估了该模型的生成能力，以确保输入的良好重构。因此，开展了一项研究，检查由深度自编码器预训练得到的受限玻尔兹曼机提取的自动学习特征所编码的每种系统状态下的信号静态重构情况。本研究使用的DNN包含两个受限玻尔兹曼机，其配置如下：RBM 1——120个隐藏单元，学习率为0.004；RBM 2——80个隐藏单元，学习率为0.01。受限玻尔兹曼机采用持续对比散度（PCD）作为训练算法。模型所用的超参数通过网格搜索优化技术选定。目标是根据超参数空间中的一个定义子集调整超参数，以找到使测试误差[33]最小化的最佳超参数组合。用于评估重构适应度的误差函数是伯努利随机分布似然函数的对数。图6显示了使用受限玻尔兹曼机进行预训练时，随着深度自编码器训练轮次的增加，重构误差的变化情况。

本研究旨在调查训练好的深度自编码器的样本内误差和样本外误差，以确保模型能够对未见数据具有良好的泛化能力，即模型可以以相似的精度为新输入编码信息。这两种误差（样本内和样本外）被表示为训练轮数的函数，并以图表形式展示在图6中。该图清楚地表明，存在一个基于训练轮数的点，超过该点后，训练样本的重构误差下降，但验证集上的重构误差却上升。这是由于模型过拟合[34]，即模型对输入数据拟合得过于紧密，导致在未见过的样本数据上泛化能力差。

解决此问题的方法有多种，其中之一是使用正则化技术。这类技术向模型引入额外信息，从而防止在特定问题背景下选择不合理的模型参数。最近由[35]提出的一种不同方法是采用一种称为Dropout（随机失活）的技术，该方法基于给定概率将某一层的随机输出设置为0。大量实验证明了该技术的有效性[36]。本文应用了该技术，并展示了其在输入重构结果上的改进，如表II所示。此外，还考虑了一种基于学习率自适应的不同技术——动量法。动量值被设定为0.9，该超参数通过网格搜索优化技术[34]选择，目标是最小化测试误差。动量对输入重构误差的影响已在表II中进行了测量和展示。

本研究表明，动量法对降低输入重构误差具有积极影响。接下来的研究分析了不同优化方法对输入重构的影响，结果如表III所示。

该模型使用CUDA和GeForce GTX 760 GPU设备进行训练，事实证明，这可将整体计算时间缩短为原来的三分之一。使用GPU对模型进行100个训练轮次、10,500个样本的训练总共耗时1小时26分钟。相同模型配置在CPU上执行则耗时4小时14分钟完成。该方法在实时系统上以上述配置运行的最大执行时间为等于274毫秒。本研究使用的计算单元为ADLINK PXI‐3980控制器。

表IV展示了使用预训练和随机权重初始化的受限玻尔兹曼机在不同层数下进行输入重构时的不同误差率。该研究使用验证数据集完成。

基于上述考虑，评估了在训练具有三层隐藏层的两个模型时所使用的隐藏单元数量的影响。此处测量了方法在实时操作中的最大执行时间。

表V的结果表明，由350个隐藏单元（分布在DNN 275‐75的两层中）组成的网络在重构上的误差最小。值得注意的是，与先前的研究类似，对于两种类型的网络（带预训练和随机权重初始化），DNN中相同数量的隐藏单元表现最佳。在这两种情况下，模型预训练均取得了最佳结果。

在输入重构方面，表现最佳的整体结果是通过以下网络架构实现的：664 – 275 – 75 – 275 – 664。该模型采用贪婪方式进行了预训练

示意图5

使用受限玻尔兹曼机（RBM）以逐层方式训练。Dropout（随机失活）被用作正则化技术。所使用的学习率分别为：RBM 1= 0.006，RBM 2= 0.02 和深度自动编码器 = 0.07。最后，采用RMSProp优化算法调整网络权重。该网络使用GPU进行了1000个训练轮次的训练，输入重构误差达到0.0039。如后续实验所示，0.0039的重构误差足以对输入数据进行编码，并将其表示为n阶马尔可夫链的状态，从而实现最高达84%准确率的产品故障检测结果。

在接下来的研究中，对所提出的HSTSM模型生成的Vdbn(t)和Vprediction(t)之间的差异度量进行了分析，以评估基于距离度量的简单线性分类是否可用于检测系统中的故障。下图显示了所选样本数据中Vresidual所有元素之和，表示为归一化标量值¥ ∈ R的绝对值。从图7可以高概率得出结论：在¥ = 0.3附近存在一个明显的分界点，当所有¥值大于0.3时，可怀疑系统中存在故障。该图还表明，通过使用HSTSM和线性分类器，可以实现简单的故障检测系统。

这些信息在一定程度上说明Vresidual包含了有关潜在故障的有用信息，不仅可用于检测故障的发生，还能实现故障类型的分类。基于上述分析，开展了一项关于基于HSTSM和MLP分类器的故障检测系统性能的研究。首先，训练了一个具有以下结构的HSTSM：RBM(1) 664 – 275；RBM(2) 275‐75；AE 664‐275‐75‐275‐664。

HSTSM算法在15000个未标记样本上进行了训练。随后，1200个手动标注的样本被分别分配到以下两类之一：“OK”和“NG”，其分布比例为60:40。这些数据进一步划分为训练数据（800个样本）和验证数据（400个样本），两类中样本数量均等。接下来，使用随机梯度下降方法训练了一个MLP分类器，其结构为单隐层75‐120‐1的前馈网络。用于优化的选定代价函数为负对数似然，传递函数为tanh。MLP分类器的输入是通过从HSTSM生成的向量V residual中减去HSTSM的向量后得到的所有元素。

示意图6

根据编码输入激活的实际向量进行预测。为了评估分类器在验证数据上的性能，训练了一个系统，结果被记录并以混淆矩阵的形式呈现在图8中。从该性能矩阵可以看出，所提出分类器的总体准确率为98%。考虑到计算出的98%准确率，可推断出误分类率为2%。从混淆矩阵导出的其他指标包括：灵敏度为97.9%，假阳性率为1.8%，精确率为98.7%，Kappa指标为0.958。

为了实现更复杂的故障隔离与识别，使用四个单元SoftMax输出层训练了MLP分类器，每个输出层对应以下类别之一：无故障、产品故障、检测设备故障、配置故障。

此处定义的产品质量缺陷是指产品故障，即所有与产品本身相关的故障，而非由机器/操作故障引起的故障。这些缺陷指的是无法满足客户需求和期望的产品。例如，使用数字万用表测量汽车IC的最大电流消耗，如果最大电流超过客户规定的限值，则被定义为产品故障。其他例子包括指针的亮度强度，或将在电机轴上安装指针所需的力。

而检测设备故障则指导致检测设备出现异常行为或无法执行正常运行的故障。这些故障发生在

示意图7

例如，当某个传感器发生故障或某个执行器无法工作时。

配置故障是由于限值设定不当或系统错误配置导致的，即使部件的制造符合客户的要求，仍会导致部件失效。这类故障常常导致产线停机和产出损失。这些故障的结果表现为工艺过程中模糊的变化。表VI列出了在这三类故障中正确分类的故障百分比，其中对所提出的混合模型与其他常用故障检测与隔离方法进行了性能比较，以评估其有效性。

然而，需要强调的是，不同故障检测方法之间的直接比较存在困难。通常情况下，通过投入大量人力修改或添加基于规则的方法中的规则，可以提高分类结果。对于基于模板的方法而言，结果的好坏也取决于模板的质量以及创建模板过程中所涉及的专家知识程度。因此，有必要从实现不同识别率所需的人力投入时间角度来审视这些比较。图9显示，使用基本故障检测方法（例如基于规则的方法），仅能在初期阶段获得较好的识别效果。随着底层过程复杂性的增加，应考虑采用具备学习能力的方法，以从示例中自动识别故障。

尽管所提出的方法在初期需要更多的人力投入（用于算法设计和特征提取），但后续能够获得更好的分类结果。可以得出结论：为了最大化故障检测系统的效益，评估所建模工艺的复杂性，并确定与所选问题复杂性相匹配的适当方法至关重要。

为了进一步评估该系统，需要测量故障识别率随训练样本数量变化的情况。为此，改变了提供给模型的训练样本数量，并检查了在验证集上的性能，如图10所示。

图10显示了用于训练模型的样本数量与产品故障识别率之间的正相关关系。在某一特定点之前，产品类别的故障识别率稳步上升；在此之后，增加样本数量不再提升识别率，而是围绕84%开始波动。

五、结论与未来工作

本文提出了一种新型的软计算生成模型，称为HSTSM。该模型集成了多种机器学习技术，用于解决在集成电路(ICs)生产中应用的基于计算机的自动化检测系统中的自动故障检测与隔离问题。

总体结果表明，所提出的方法对于其他故障检测与隔离系统而言是一种有效的替代方案，尤其适用于需要能够建模复杂制造和控制系统能力的场景。未来的研究将集中于提高该方法的识别和输入预测率。还需开展更多研究，以探讨模型在缺失数据以及含不同噪声水平的数据下的稳定性。最后，将进一步开展工作，将HSTSM方法应用于其他领域，例如医疗保健中的疾病预测与诊断[37],[38],真实股票市场以分析趋势和潜在的不良市场行为，以及多种不同的物理系统以预测这些系统的行为[39]。

示意图8

示意图9