An Improved Deep Transfer Learning Method for Rotating Machinery Fault Diagnosis Based on Time Frequ-优快云博客

本文链接：https://blog.youkuaiyun.com/XZHBUT/article/details/141788015

An Improved Deep Transfer Learning Method for Rotating Machinery Fault Diagnosis Based on Time Frequency Diagram and Pretraining Model基于时频图和预训练模型的旋转机械故障诊断改进深度迁移学习方法

Abstract

在不同工况下，同一类型设备的故障预测模型在部署和应用中往往是无效的。
针对当前基于神经网络的故障诊断模型深度有限、特征提取能力不足、自适应能力不足、分类效果差等局限性，研究并提出了一种新的故障预测算法——深度自适应残差神经网络(deep adaptive residual neural network，简称:dmm)。

该算法引入了预训练模型，提高了故障诊断能力。该方法通过时频处理得到原始时间序列信号的时频图。

同时，残差神经网络预训练模型作为特征提取的主网络。

此外，设计了几个损失函数，以尽量减少数据类别之间的差异和自适应迁移的损失。

进行了几种超参数的烧蚀实验。该方法不仅提高了故障预测模型的准确率，而且显著缩短了训练时间。与传统的神经网络故障诊断模型相比，该方法解决了结构不稳定和特征提取能力有限的问题。它确保模型在各种工作条件下保持强大的预测能力。最后，在公共轴承数据集和自制轴承数据集上对该方法进行了验证。

I. INTRODUCTION

统计学习理论框架下的机器学习算法遵循一个基本假设，即训练数据和测试数据是从相同的分布中提取的。如果这个假设不成立，这些方法的泛化性能可能会大大降低

在发生故障时，旋转机械可能不允许连续工作，这使得难以获得标记故障数据[1]，[2]。
对于某些不常见的故障，等待故障发生以收集必要的专用故障数据可能非常耗时。同时，为了获取某些旋转机械的故障数据，往往需要建立相应的故障试验台，对设备进行破坏性实验，以获取有价值的故障数据[3]。

这些条件使得获得旋转机械故障分类数据集变得困难和昂贵，并且在实际应用中容易导致数据分布的差异。
这反过来又导致故障预测模型的性能显著下降[4]。利用已有的故障数据来指导设备在不同工况下的运行，使用少量的标记数据和大量的未标记数据进行模型自适应学习，是提高故障预测性能的一个重大挑战。

目前，解决这类问题的常用方法是利用迁移学习。
一般来说，迁移学习是指利用已有知识获取新知识。迁移学习的关键方面是识别现有知识和新知识之间的相似性[5]。
在迁移学习中，将已有的知识称为源领域，将新学习的知识称为目标领域[6]。
源域和目标域不同，但又有一定的联系。我们需要减少源域和目标域之间的分布差异，以便于知识转移和实现数据校准[7]。

Shen等[8]提出了 一种基于迁移学习的轴承故障诊断方法，该方法提出了一种迁移策略来提高轴承在各种工况下的诊断性能，使用选择性辅助数据来辅助目标数据的分类，并在TrAdaBoost算法中进行它们之间的权值调整来增强诊断能力。

Qian等[9]提出了一种新的迁移学习方法，称为改进的联合分布适应(IJDA)，以更全面地对齐数据集的边缘分布和条件分布。
同时提出了一种基于振动信号的鲁棒故障诊断方法[9]。

Wu等[10]提出了一种用于轴承故障诊断的自适应深度迁移学习方法。构建了基于实例迁移学习的长短期记忆递归神经网络模型，利用联合分布自适应方法减小了辅助数据集与目标域数据集的概率分布差异，并介绍了联合分布自适应学习的关键参数[10]。

Li等[11]提出了一种基于堆叠自编码器(SAE)方法的对抗性迁移学习方法来解决目标域出现新故障的问题。采用SAE网络有效提取可转移特征，采用对抗学习和梯度反向层实现模型训练和参数反向传播[11]。

Qian等[12]提出了一种新的基于卷积自编码器(CAE-DTLN)的深度迁移网络，该网络集成了CORAL损失和域分类损失，可以在不需要标记数据的情况下实现目标域的机械故障诊断。

Sheng等[13]提出了一种基于CNN和SVM的燃气轮机故障诊断迁移学习方法。通过设计特征映射方法，利用正常数据集训练的CNN内层提取故障数据集的特征表示，并利用支持向量机进行故障诊断[13]。

Si等[14]提出了一种带扭矩匹配的无监督深度传输网络(udn - mm)，旨在实现不同工况下的故障诊断。采用灰度时频图像作为网络输入，采用两种自适应方法减小分布差异[14]。

Shao等[15]提出了一种基于辅助分类器GAN (ACGAN)的框架，从机械传感器信号中学习并生成逼真的1-D原始数据。所提出的体系结构包括两个部分，一个生成器和一个鉴别器，这两个部分都是通过堆叠1-D卷积层来从原始输入中学习局部特征[15]。

针对行星齿轮箱结构复杂、噪声干扰、故障样本数量少等问题，Wang等[16]提出了一种结合生成对抗网络(GAN)和堆叠降噪自编码器(SDAE)的新型故障诊断方法。上述文献在一定程度上解决了部分模型泛化的问题。

然而，在准确性方面仍有改进的余地。同时，仅仅依靠深度网络并不总是最有效的方法，需要考虑特征提取的问题。

考虑到旋转机械工作条件多变、环境复杂、故障样本有限等挑战，利用预训练模型可以有效地减少所需的训练资源，增强模型的泛化能力[17]。

因此，迁移学习逐渐被应用到旋转机械故障的诊断中。

迁移学习在训练过程中容易出现负迁移、适应不足等问题。如何有效地提取领域类别的特征并提高分类精度，已成为迁移学习中的一个重大挑战。为此，本文提出了一种改进的旋转机械故障预测算法。

该算法基于时频图和使用残差神经网络的预训练模型的组合。这种方法旨在解决模型泛化和特征提取的难题。在这种方法中，时频图是通过对原始时间序列数据进行时频处理而获得的。ResNet-50 残差神经网络被用作特征提取的主网络，并带有预训练模型。
设计了多个损失函数，以尽量减少分类损失和转移损失。中心损失函数是专门为减少类内差异而添加的，并通过实验得到了充分验证。

本文的主要贡献在于以下几点。
1)采用时频处理方法对时间序列数据进行预处理，得到时频图作为网络的输入。然后调整网络结构。

2)定义了几个损失函数，并增加了一个特殊的损失函数。利用中心损失函数减小域内的类内距离，提高模型的分类精度。

3)设计了充分的验证实验，并进行了参数烧蚀，有效地证明了该方法的优良性能。

本文的其余部分组织如下。第二节详细介绍了所提出的旋转机械故障预测算法。该算法基于时频图和残差神经网络预训练模型。第三部分演示了所建议的方法已经使用各种场景进行了测试，使用了来自公共和自制数据集的数据。结论将在第四节提出。

II. DETAILS FOR THE PROPOSED METHOD

在这里插入图片描述

在本节中，基于时频图和预训练模型的改进深度自适应ResNet网络旋转机械故障诊断方法如图1所示。

这种方法通过时频处理获得原始时间序列信号的时频图。
利用残差神经网络预训练模型作为特征提取的主要网络，同时增强网络结构以满足任务要求。
为了最小化数据类别之间的差异和自适应转移的损失，设计了多个损失函数。
其中，增加了一个特殊的中心损失函数，以减少不同领域单类别样本之间的距离，提高分类精度。对多个超参数进行了消融实验。所提出的方法不仅提高了故障预测模型的准确性，而且大大缩短了训练时间。

下面介绍所提出的系统方法。

A.数据预处理

在将样本输入网络之前，需要对其进行规范和增强。研究表明，数据标准化和归一化可以有效提高神经网络训练的效率[20]。在这里，我们采用目前最常用的标准化方法，即Z-score标准化，也称为标准差标准化。

该方法计算原始数据的均值和标准差，从而对数据进行标准化**。经过处理，原始数据样本符合正态分布，即均值为0，标准差为1**。假设旋转机械数据集 X = x1,x2，…，xi, 0 < i < n ，其中n为样本总数，z分数标准化公式为
在这里插入图片描述

其中为原始数据的平均值，计算公式为
在这里插入图片描述
为原始数据的标准差，由

考虑到实验数据与现场数据在噪声干扰方面的差异，在数据预处理时对原始数据进行数据增强[21]。通过在原始样本中加入高斯分布的噪声，深度神经网络在数据的训练和推理过程中变得更加鲁棒，从而增强了其泛化能力。在使用对原始数据进行标准化后，进行数据增强以获得增强数据
在这里插入图片描述
式中(0,0.01)为从高斯分布中得到的随机值，均值为0，标准差为0.1[22]。

传统的傅里叶变换方法不能准确地描述任意时刻的频率成分，缺乏综合分析能力。小波分析虽然能更好地分析信号的局部特征，但其复杂度较高，计算量较大。

考虑到深度学习中数据量大，同时考虑信号的整体特性，采用时频分析对数据进行预处理。

时频分析方法将一维时间序列信号映射到二维时间频率平面上，以充分捕捉非平稳信号的时频组合特性[23]，[24]。
EEMD方法根据原始信号的均值特征和时间尺度，将信号从低频到高频分解为一系列IMF分量之和[25]。然后，通过希尔伯特变换得到分解后的各IMF分量的瞬时频率。通过对所有IMF分量的瞬时谱积分，可以得到信号的Hilbert时频图。

B. Network Structure

本节提出的方法采用基于PyTorch框架的ResNet50残差神经网络预训练模型作为故障预测算法的主网络。
该模型用于特征提取和模型训练。其中，ResNet-50残差神经网络由四个较大的残差块组成。
每个大残差块包含几个小残差块，数字分别为3、4、6、3。每个小残差块包含三个卷积层。最后一层为全连通层，维数为1000[18]，[19]，[20]。

为了使ResNet-50残差神经网络适应故障预测任务，我们对网络结构进行了微调。

ResNet-50网络的最后一个完全连接层的输出被传递到具有256个输出单元的线性层。让我们将激活函数的ReLU层连接到Dropout层，然后连接一个大小为256 × 10的线性层，得到一个具有10个输出通道的softmax层，用于多类分类预测。网络结构如图2所示。

C. Model Loss Functions

为了有效地传递源域数据训练的模型，这里加入了传递损失函数，以减小源域和目标域之间的分布差异。
同时，针对域内不同标签样本的分类边界模糊，容易出现误分类的问题，提出在模型训练中加入中心损失函数。假设数据预处理后的源域样本集为 X s = {X s 1, X s 2，…，x si} ，总样本为n，数据预处理后的目标域样本集为 x t = {x t1,x t2，…， x t i} ，总样本是Nt。

分类损失函数：对源域样本进行标记，并将其用作深度神经网络模型训练的监督学习。在此，我们使用交叉熵损失函数作为模型训练的分类损失函数。相应的计算公式如下
在这里插入图片描述
其中， Lce 为交叉熵计算，为softmax分类预测运算，
si为样本x si的真实标签。

2)传递损失函数
为了将源域学习到的知识应用到不同但相关的分布数据中 ，在模型训练中加入了最大平均差异(MMD)传递损失函数。

MMD的基本思想是，如果两个随机变量在任意阶上相同，则两个分布是一致的。
当两个分布不同时，应以引起它们之间差异最大的时刻作为衡量分布的标准。本质上，MMD就是找到一个转换函数，使转换后的源域数据和目标域数据之间的距离最小。
在这里插入图片描述
其中H表示这个距离是通过映射数据到再生希尔伯特空间(RKHS)来测量的。在此，考虑到MMD在实际应用中的性能，我们采用多核MMD方法计算带有高斯核的多个RBF带宽。

Center Loss Function中心损失函数:
为了有效减小类间差异，缩短同类样本之间的距离，从而有效解决不同类样本边界模糊导致的分类错误问题，本文方法中采用了一种特殊的损失函数。中心损失函数连续计算每一类样本与类中心之间的距离。

随着模型的训练，迭代地减少距离，减少类内的距离，从而增加相似样本的相似度。

计算公式如下:
在这里插入图片描述
其中 cyi 为对应类样本的中心位置。

4)总损失函数:
根据上述损失函数的描述，本文提出的深度传递神经网络的总损失函数为

在这里插入图片描述
其中为迁移损失函数的权值，为中心损失函数的权值。在接下来的实验验证中，对权值进行局部搜索，以确定最优的超参数。

D.模型训练和推理

该方法的模型训练和推理过程如算法1所示。通过对源域数据集和目标域数据集进行HHT时频分析，得到时频图，完成对原始样本的预处理操作。然后，将预处理后的源域样本和目标域样本分别输入ResNet-50网络进行模型训练。每个损失函数经过几轮迭代计算，包括分类损失函数、传递损失函数和中心损失函数。通过反向传播更新网络参数，完成模型训练过程。最后，利用训练好的模型预测目标域的标签。

在这里插入图片描述

III. EVALUATION

A. Public Dataset Performance Testing

在本章中，我们使用美国俄亥俄州克利夫兰市凯斯西储大学的轴承数据集对该方法进行实验测试，以验证算法的性能指标。试验台主要由感应电机、加速度计、试验轴承、扭矩计、负载电机组成。轴承主要包括具有不同尺寸裂纹的内圈单点失效、外圈单点失效和球单点失效。每种损伤类型不同，分别产生了0.007、0.014、0.021和0.028 in 4种不同直径的裂纹损伤。每个轴承分别在0、1、2、3 hp 4种不同载荷下进行测试，并采集驱动端和风扇端的加速度数据。风扇端数据采集采样率为12 000 Hz，驱动端数据采集采样率为12 000 Hz和48 000 Hz[26]。

硬件配置方面，GPU服务器的操作系统为CentOS 7.6。GPU服务器的中央处理器为Intel1 Xeon1 Gold 5122 @ 3.60 GHz，图形处理器为NVIDIA Tesla V100 PCIE 32gb RAM。
为了对该方法进行评价，选取了正常状态、内圈失效、外圈失效和钢球失效等十种不同状态的试验数据。每个类别的样本数量为800个，每个样本数量包含1024个数据点。每个状态都包含在四种不同负载下收集的加速度数据，以及来自驾驶员和风扇端不同传感器位置的加速度数据。本部分使用的测试数据的详细情况见表1
在这里插入图片描述
1)模型性能测试:我们测试了所提出的模型自适应迁移到单状态数据的方法的性能。实验选取2hp载荷下的轴承状态数据，样本总数为8000个，样本标号包含十大类。本文比较了三种方法，包括未使用的预训练模型、预训练模型和本章提到的方法。给出了这三种方法的预测效果，包括准确率和训练损失函数曲线。在本实验中，模型的迭代次数设为 50 次，相应的准确率曲线和损失函数曲线如图 3 所示。可以看出，所提出的方法具有最佳的模型性能。模型收敛速度很快，只需十轮左右就能达到接近 1 的准确率。该方法只调用模型结构，不调用模型参数，训练时间较长，收敛速度最慢。与所提方法相比，仅使用预训练模型的方法在收敛速度上仍有一定差距。

2)不同载荷条件:为了测试所提方法在不同载荷下的模型自适应能力，在Domain h0、Domain HP1、Domain HP2和Domain HP3 4个不同载荷下的轴承数据集上进行了实验。实验采用一种载荷数据分别对其他三种载荷数据进行自适应传输。为了更好地优化所提方法的权值，对模型损失函数的权值进行最优参数搜索。如图4所示，左侧为本文方法的传递损失权重系数对比图，右侧为本文方法的中心损失权重系数对比图。在0 ~ 10范围内测试传递损失系数alpha。