油气行业旋转机械剩余使用寿命预测:集成机器学习与混合数据方法
1. 引言
随着工业 4.0 技术的快速发展,大数据和工业物联网等技术在工业过程中的应用越来越广泛,传统技术也在不断发展和被取代。近年来,由于工业 4.0 带来的维护策略变化,如在线诊断和资产剩余使用寿命(RUL)预测,维护的重要性迅速提升。这些有价值的信息可以实时获取,从而最大程度减少意外停机和安全风险,并降低维护成本。
故障演变可以通过三种方式建模:分析符号(如工作订单或维护报告)、分析数据(如从控制系统收集的数据)或使用基于物理原理的数学公式。有多种机器学习(ML)模型可用于预测 RUL,但没有一种特定模型能在所有情况下都获得最佳准确性,因为这高度依赖于工业过程、操作环境和资产本身。为了解决这个问题,许多研究提出使用集成方法融合多个模型,这些模型可以整合不同算法的数据驱动建模能力,从而产生更准确的综合预测。
在许多行业中,并非所有需要诊断或预测(即 RUL)的故障都有真实数据集。可以通过结合领域专家和描述资产在这些情况下行为的物理模型来解决这一重要差距。数字孪生技术正在被开发,以在缺乏真实数据的故障情况下,根据资产的物理行为合成信息。
综合使用多种基本方法(即混合方法)可以实现更准确、可靠的工业资产诊断和 RUL 预测。混合方法可以将数据驱动模型与物理模型相结合,为时变服务设备创建动态系统模型。
本文的主要贡献是将集成 ML 方法应用于混合振动数据(真实和合成)的堆叠结构,以预测油气行业中旋转机械的 RUL。本文为实际资产(API 多级离心泵和两个离心风机)提供了一种先进的预测方法。
2. 诊断
油气行业旋转机械的健康诊断利用了一些技术和物理变量,这些仍然是可靠性工程师进行专家分析的基础。用于诊断的数据包括振动、润滑剂、温度、声发射、压力数据等。所有这些数据都由精通力学和振动分析的专业工程师进行分析,他们使用历史数据、趋势图和统计方法,通过相关物理参数来确定机器的状态。几十年来,专家团队一直采用这种方法,它仍然是行业状态监测(CM)的基石。然而,在过去几年中,ML 和数据挖掘(DM)技术也被引入该过程,这些技术在分析过程中几乎不需要人工干预数据。
在这个工业案例研究中,对多级离心泵的 20 种故障模式和两个离心风机的 15 种故障模式进行建模,以诊断机器的三种感兴趣的状态模式:最佳状态(绿色)、非最佳状态(黄色)和临界状态(红色)。
用于训练诊断算法的数据来自三个不同的来源:
-
实际运行振动数据
:通过安装在泵和风机轴承座上的无线蓝牙 4.2 压电单轴加速度计收集。传感器的频率范围为 0.3 - 10,000 Hz,采样率从 256 Hz 到 25.6 kHz,在 25.6 kHz 时采样时间可达 60 秒,这允许生成 100 到 12,800 条线的频谱。振动数据每 15 分钟读取一次,由采样率为 5,120 样本/秒、共 16,384 个样本的波形组成,经过快速傅里叶变换(FFT)后转换为最大频率为 2,560 Hz、8,192 条谱线的频谱。在应用预测算法之前,信号会进行预处理和滤波。
-
合成振动数据
:通过为每个特定故障的特定峰值或谐波添加不同幅度和频率的确定性正弦信号(基于文献和专家知识)来获得。通过将这些信号与分析机器的实际故障数据信息相结合来确定幅度,并通过添加不同标准差的白高斯噪声来完善信号。获得丰富的数据集后,提取频域的 8 个关键特征和时域的 15 个关键特征,并用作预测算法的输入以获得 RUL。
-
过程数据
:可从工厂的 DCS 系统获取,该系统每分钟采集一次读数。这些信息主要用于过程控制,但在机器故障检测中也有助于验证诊断和预测,因为一些数据会受到生产单元过程条件的影响。风机预测考虑 19 个参数,包括流量、压力、气体成分和温度;离心泵预测考虑 5 个参数,包括压力、流量和温度。
相关的时域和频域特征如下表所示:
| 时域特征 | 频域特征 |
| — | — |
| 均方根(RMS) | 均方根 |
| 峰值 | 中心频率 |
| 波峰因数 | 根方差 |
| 平均值 | 峰度值 |
| 标准差 | 偏度值 |
| 中位数 | 标准差 |
| 方差 | 谱熵 |
| 峰度值 | 离散余弦变换(DCT N = 5) |
| 偏度值 | 间隙因子 |
| 间隙因子 | 脉冲因子 |
| 脉冲因子 | 形状因子 |
| 形状因子 | 香农熵 |
| 香农熵 | 威布尔负对数似然 |
| 威布尔负对数似然 | 正态负对数似然 |
这些特征适用于多种故障模式,可用于机器故障检测。不同的特征可能对不同的故障模式检测具有不同的适用性,具体取决于故障的性质(如退化、疲劳等)及其随时间的演变。本研究的目的是提供一种更全面、通用的基于人工智能的数据驱动方法,而不是专注于非常特定的故障模式和分析模型。
3. 预测
国际标准化组织(ISO)将预测定义为“对一个或多个现有和未来故障模式的故障时间和风险的估计”。预测具有两个基本特征:首先,它是一个预测过程(必须捕捉未来情况);其次,必须了解故障的原因,并设定可接受的程度。
在本研究中,用于估计 RUL 的风险级别基于文献、振动标准和每个资产的历史数据。绿色代表最佳状态,黄色表示未来可能需要进行维护操作,红色表示几乎需要立即进行维护操作。
本研究提出使用基于机器学习模型集成的混合系统,采用堆叠方法来预测 RUL。考虑的模型包括:作为树学习器的装袋法、作为核方法的支持向量机回归(SVR)以及作为基于相似度方法的 k 近邻(kNN)。这些基础学习器的预测结果通过多层感知器(MLP)神经网络以堆叠(加权)方式组合,以获得准确的 RUL。
当获得真实和合成信号后,会进一步处理每个故障和资产对应三个风险级别的数据。将从时域和频域提取的所有特征(见上文表格)组合,生成一个完整的特征向量 X,代表所研究资产的健康指纹。使用降维方法来降低与从原始信号提取的所有特征相关的计算成本,并专注于当前问题的相关信息。在应用数据降维方法之前,对每个特征进行 0 到 1 的归一化处理,以防止因特征值尺度不同而产生不同的权重。本研究使用主成分分析(PCA),其中降维特征空间中的新组件数量代表每个组件所解释的变异性。结果是为该问题获得一组减少的特征或代表性主成分,保留了超过 90%的总变异性。
一旦所有数据都处于新的主成分空间中,就定义代表每个工作条件模式的质心。这种基于质心的表示方法允许直接诊断,也为 RUL 估计提供了随时间的距离度量。下一步,根据最接近的模式对一组新数据进行分类。
还开发了一个退化模型来验证模型的 RUL 估计。在这种情况下,每个合成数据都使用混合系统中相同的数据生成模型生成。通过修改每个故障相关频率的幅度 A(fk),从最佳工作状态线性逐渐增加严重程度,获得退化模式。这个退化模型用于验证所提出方法的预测结果。
完整预测算法的输出是到临界状态(任何建模故障)的时间距离 T(周)的预测,以及属于所考虑临界状态的概率 p(T)。本研究考虑了五个时间窗口(周):T = 2、3、4、6、8。设置这些时间窗口是为了获得不同的预测结果,并更准确地逼近 RUL。由于资产的运行性质和模型中考虑的时间窗口,RUL 输出大于 12 周被认为是不可预测的。
最后,使用过程数据(来自 DCS 和 PI 系统)验证结果,以避免误报,并确定哪些操作情况对资产的健康状态和退化过程影响最大。验证方法有两种:
1. 在学习过程的不同阶段(训练、验证和测试)使用评估指标,例如均方误差(MSE)或平均绝对误差(MAE),以评估模型在时间上对目标值的预测效果。
2. 在模拟退化场景中验证方法,目的是检查从最佳到临界退化阶段该方法的准确性。
4. 结果
本节解释了算法在评估离心风机底板松动情况时的预测结果。
前面提到的混合合成数据生成方法避免了数据不可用的问题。根据所考虑的故障和资产,可以生成更多的合成数据。对于每个资产、故障类型和严重程度(除良好状态外),平均生成 3,000 个数据信号,具体取决于是否有真实的历史故障信号。在底板松动的情况下,有历史绿色状态和黄色状态的数据,因此与其他故障相比,该故障所需的合成数据生成量较少。
在对获得的特征进行 PCA 处理后,计算每个资产/故障/严重程度的数据质心,以确定系统在每个时刻的运行情况。通过确定最接近的质心(绿色、黄色或红色)来选择实际工作状态。图 6 展示了底板松动故障随时间到绿色、黄色和红色状态的距离示例。
绿色数据提供了未来用于 RUL 预测的健康指纹。需要注意的是,这些数据还会通过一个算法进行检查,该算法评估是否有任何异常过程变量(如压力、流量等)影响信号,从而影响诊断和/或到故障黄色或红色严重程度的距离。这样做是为了获得更精确的指纹,并避免预测中的误报。
开发的预测模型使用历史真实数据和合成数据进行训练,以模拟资产故障或异常工作条件的演变。
下表展示了开发的算法对底板松动故障资产的 RUL 预测输出。对从资产历史数据生成的合成数据进行检查,表格显示了每个时间窗口的以下信息:首先是到红色严重程度的预测和实际距离;其次是在预测 RUL 时刻红色严重程度为真的概率与根据合成数据演变计算的实际 RUL 时刻为真的概率。
| RUL [周] | 模型距离 | 实际距离 | 模型概率 (%) | 实际概率 (%) |
| — | — | — | — | — |
| 2 | 11.088909 | 9.652191 | 8.14 | 20.04 |
| 3 | 11.521482 | 8.090396 | 4.56 | 32.98 |
| 4 | 7.409081 | 6.020644 | 38.63 | 50.13 |
| 6 | 7.956093 | 7.753701 | 34.09 | 35.77 |
| 8 | 6.410448 | 5.255591 | 46.90 | 56.46 |
实际(考虑退化演变)和预测值如图 8 所示,并使用这些值进行高斯近似。该近似确定故障概率较高的时间、其严重程度以及预测的确定性。需要注意的是,这是针对每个测量值在线进行的,该概率的最大值确定故障最可能发生的时间。案例研究的结果如下表所示,模型估计的 RUL 和根据退化模型的实际 RUL 相似,结果还显示了故障概率。
| 预测 RUL (周) | 实际 RUL (周) | 模型概率 | 模型标准差 | 实际概率 | 实际标准差 |
| — | — | — | — | — | — |
| 7.57 | 9.82 | 45.67% | 3.11 | 55.43% | 6.49 |
对于这些资产的其他常见故障,如油膜振荡、不平衡或离心泵和风机的不对中问题,也获得了类似的结果。
5. 结论与展望
本文提出了一种针对 API 673 和 610 离心风机和泵的故障预测系统方法。该方法的关键特征是集成预测算法和混合合成数据生成方法。
实现了三种不同的 ML 模型,这些基础学习器的预测结果通过多层感知器(MLP)神经网络以堆叠方式组合。该集成方法在真实(绿色状态)和合成(黄色和红色状态)信号退化趋势上进行了验证,分别获得了 5 - 10%和 7%的预测准确率,因此还有进一步研究的空间。
本研究使用混合方法生成合成数据,解决了与感兴趣事件(故障)相关的相关信号缺失问题。这种混合方法通过结合真实和合成数据来实现,合成数据基于现有文献和领域专家知识生成。生成的模式与从研究机器获得的真实数据一致,并且在有真实数据时,在预测故障退化方面具有良好的准确性。
尽管研究主要集中在一台 API 610 多级离心泵和两台 API 673 离心风机上,但所提出的模型可用于 API 标准涵盖的其他泵和风机配置。初步研究表明,通过进行一些小的配置更改(如转速、轴承 ID 等),诊断模型具有良好的可扩展性。
本研究还分析了所提出算法基于 API 风机和泵的组件和配置(如悬臂式或轴承间配置、轴承类型和叶轮数量)检测故障的潜在能力。模型的诊断预期兼容性(%)是根据 BB3 配置与所分析配置之间的相似组件和机械特性数量计算得出的,具体如下表所示:
| API 机器配置 | 诊断预期兼容性 (%) |
| — | — |
| API 673 离心风机 | 96.5 |
| API 610 悬臂式泵 (OH) | 72.4 |
| API 610 轴承间泵 (BB) | 95.7 |
| API 610 垂直悬挂式泵 (VS) | 60.0 |
由于离心泵是炼油厂中最常见的旋转机器,离心风机是关键资产,所提出的模型可以应用于其他 API 配置的泵和风机。如果这些模型能成功应用于其他实际机器,将证实其诊断和预测能力是否足够准确,从而以合理的成本应用于油气行业的完整 API 泵和风机机队。
整个诊断和预测过程可以用以下 mermaid 流程图表示:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(数据收集):::process
B --> B1(实际运行振动数据):::process
B --> B2(合成振动数据):::process
B --> B3(过程数据):::process
B1 --> C(特征提取):::process
B2 --> C
B3 --> C
C --> D(特征组合):::process
D --> E(降维处理):::process
E --> F(确定质心):::process
F --> G(分类):::process
G --> H(预测 RUL):::process
H --> I(结果验证):::process
I --> J{验证通过?}:::decision
J -->|是| K([结束]):::startend
J -->|否| B(数据收集):::process
综上所述,本研究为油气行业旋转机械的故障预测提供了一种有效的方法,通过集成机器学习和混合数据处理,有望提高设备的可靠性和维护效率。未来的研究可以进一步优化模型,提高预测准确性,并扩大模型的应用范围。
油气行业旋转机械剩余使用寿命预测:集成机器学习与混合数据方法
6. 技术优势与挑战
本方法具有多方面的技术优势。首先,集成机器学习模型的使用结合了不同算法的优势。装袋法作为树学习器,能够处理复杂的非线性关系,对数据中的噪声有较好的鲁棒性;支持向量机回归(SVR)作为核方法,在处理高维数据时表现出色,能够找到最优的分类超平面;k 近邻(kNN)作为基于相似度的方法,简单直观,能根据数据的局部特征进行预测。通过多层感知器(MLP)神经网络将这些基础学习器的预测结果进行堆叠组合,进一步提高了预测的准确性和稳定性。
其次,混合数据生成方法解决了数据不足的问题。在实际工业场景中,某些故障的发生频率较低,难以获取足够的真实数据。通过结合领域专家知识和物理模型生成合成数据,能够补充缺失的数据,使模型能够学习到更多的故障模式和特征,从而提高模型的泛化能力。
然而,该方法也面临一些挑战。一方面,数据的质量和准确性对模型的性能影响较大。实际运行振动数据的采集可能受到传感器精度、环境噪声等因素的干扰;合成数据的生成虽然基于专家知识和物理模型,但仍然可能存在一定的偏差。另一方面,模型的计算复杂度较高。集成多个机器学习模型并进行堆叠组合,以及对大量数据进行特征提取和降维处理,需要消耗大量的计算资源和时间,这在实际应用中可能会受到硬件条件的限制。
7. 应用场景拓展
除了油气行业的 API 673 和 610 离心风机和泵,本方法还可以拓展到其他工业领域的旋转机械故障预测。例如,在电力行业,可用于发电机、汽轮机等设备的故障预测;在制造业,可用于机床、压缩机等设备的状态监测。
在不同的应用场景中,需要根据具体设备的特点和运行环境进行适当的调整。例如,对于不同类型的旋转机械,其故障模式和特征可能有所不同,需要重新选择合适的特征和模型;对于不同的工业环境,数据的采集方式和频率也可能需要进行优化。
以下是一些可能的应用场景拓展示例:
| 应用行业 | 设备类型 | 可能的故障模式 | 需关注的特征 |
| — | — | — | — |
| 电力行业 | 发电机 | 绕组短路、轴承磨损 | 温度、振动频率、电流 |
| 制造业 | 机床 | 刀具磨损、主轴不平衡 | 切削力、振动幅度、转速 |
| 航空航天 | 发动机 | 叶片疲劳、燃油系统故障 | 压力、温度、振动 |
8. 未来研究方向
为了进一步提高本方法的性能和应用范围,未来可以从以下几个方面进行研究:
-
模型优化
:探索更先进的机器学习模型和集成方法,如深度学习模型(如卷积神经网络、循环神经网络),以提高模型的预测准确性和泛化能力。同时,研究如何优化模型的参数和结构,以减少计算复杂度和提高训练效率。
-
数据增强
:除了现有的混合数据生成方法,还可以探索其他数据增强技术,如数据插值、数据变换等,以进一步丰富数据集,提高模型的鲁棒性。
-
实时监测与预警
:开发实时监测系统,能够及时获取设备的运行数据,并进行实时分析和预测。同时,建立有效的预警机制,当设备出现故障隐患时,能够及时发出警报,以便采取相应的维护措施。
-
跨领域应用
:将本方法应用到更多的工业领域和设备类型中,验证其通用性和有效性。同时,研究如何将不同领域的知识和数据进行融合,以提高故障预测的准确性和可靠性。
9. 总结
本研究提出了一种基于集成机器学习和混合数据的旋转机械剩余使用寿命预测方法,通过对油气行业 API 673 和 610 离心风机和泵的案例研究,验证了该方法的有效性和可行性。该方法具有以下特点:
- 集成多个机器学习模型,通过堆叠方法提高预测准确性。
- 采用混合数据生成方法,解决数据不足的问题。
- 对数据进行特征提取和降维处理,减少计算复杂度。
- 能够根据设备的运行状态进行实时监测和预警。
虽然该方法已经取得了一定的成果,但仍然面临一些挑战和问题,需要在未来的研究中进一步解决。通过不断优化模型和方法,拓展应用场景,有望为工业设备的可靠性和维护效率提供更有力的支持。
整个研究的流程可以用以下 mermaid 流程图总结:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([确定研究目标]):::startend --> B(数据收集与处理):::process
B --> C(模型选择与集成):::process
C --> D(模型训练与优化):::process
D --> E(结果验证与评估):::process
E --> F{验证通过?}:::decision
F -->|是| G(应用与拓展):::process
F -->|否| C(模型选择与集成):::process
G --> H([总结与展望]):::startend
总之,本研究为旋转机械的故障预测提供了一种新的思路和方法,未来有望在工业领域得到更广泛的应用和推广。
超级会员免费看
516

被折叠的 条评论
为什么被折叠?



