一种用于预测性维护的改造方法
摘要
新技术正在推动消费领域和工业环境的数字化进程。尤其是在维护领域,通过对相关数据流进行实时分析,为预测故障和失效提供了新的可能性。本文将介绍一种基于低成本嵌入式系统和消费领域传感器技术的预测性维护系统的开发与实施。内容包括设备的实施、其与物联网(IoT)的连接以及机器学习的应用。所开发的系统将在生产系统研究所(IPS)的机器人单元中进行演示。
关键词 :改造, 物联网, 预测性维护, 机器学习。
1 引言
不断发展的数字化为业务和生产流程的设计、支持与改进带来了新的可能性。不仅在消费领域,而且在生产领域,日益增长的信息和通信技术,直至信息物理生产系统(CPS)的实施,催生了大量新的应用场景,并在过去几年中被统称为工业4.0[1]。特别是对于高度自动化的生产系统(如机器人单元)的维护,出现了采用预测性而非反应式的方法,或定义固定维护间隔的新可能性,以提升性能、生产率和可用性。尽管企业已认识到预测性维护[2]的潜力,但其实施至今仍受到限制[3]。虽然新建工厂中通过集成传感器提高了数据可用性,但由于缺乏标准化接口,其应用仍受限。此外,整合不同数据源以及构建机器学习环境所需的高昂投入,给用户带来了巨大挑战[4]。本文提出了一种针对现有生产系统的改造方法,该方法在集成层面采用了物联网架构,并提供了实施预测性维护机器学习的框架条件。
2 通过改造实现预测性维护
为了生产系统的经济运行,设备利用率具有决定性意义。由于故障和损坏导致的可用性损失在限制设备利用率方面起着核心作用,例如,在丰田生产系统中提到的第一类损失即是此类损失。[5]为了防止机器停机,需要一种高效且可持续的维护策略。图1比较了传统维护策略与通过改造支持的状态导向型维护策略。
反应式的或预定式维护的传统策略不适合最小化可用性损失[7]。反应式策略有意接受故障,以实现对组件磨损余量的最佳利用。预定式维护基于对磨损余量的保守估计,并据此规定维护间隔。因此,磨损余量几乎无法被充分利用,且由于计划内的维护将导致不必要的停机。通过引入组件实际状态的反馈,可以在无需频繁进行机器干预及造成生产中断的情况下,避免因意外故障导致的停机。
为此,必须测量组件的当前磨损状况。因此,大多数工业设备需要将实施适当的传感器技术作为初始改造步骤。这些传感器能够根据人类感官器官识别物理特性,并将其转化为信息。基于状态与效应的一对一对应等简单信息在状态监测中进行评估。由于状态监测可以触发通知、维护操作或紧急停机,因此可被视为一种独立的维护策略。
通过实施预测性维护,对传感器值的数据流进行处理和评估,以检测异常或已知模式,并最终预测故障。需要数据分析来支持对超出常规事件的早期检测。一对一关系,并具有多个关键原因。在这种情况下,可以生成通常超出维护人员领域知识的知识。
3 技术基础
下一节讨论了实施预测性维护的基本技术前提。除了物联网平台和改造方法的发展外,还包括机器学习作为数据分析和实现预测模型的核心要素。第4节将对应用的系统设计和所需元素进行详细说明。
3.1 改造和物联网集成
为了将现有工厂改造为用于预测性维护的信息物理系统,首先必须确定现有生产系统中需要进行数字化的要素。这些要素主要是机器、组件、零部件,也包括产品或过程信息。将现有的工业设备集成到物联网中,给许多用户带来了重大挑战。近年来,为了为用户和供应商在具体实施物联网环境时提供统一的框架条件,实现内部机器数据、外部传感器以及相邻系统环境的融合,已开发出各种参考架构模型,如RAMI 4.0[8], IIRA [9]或ARM [10]。
古思等人 [11]对现有的参考架构模型进行了深入的概述,并概括了以下考虑层次:
信息物理系统的组成部分包括传感器,这些传感器能够生成用于定位、状态或过程进展的数据。传感器负责记录物理数据,而执行器则将信号转换为压力或机械运动等物理量[12]。边缘设备(在简化形式中也称为物联网适配器)起着重要作用。
作为信息物理系统(CPS)的接口。这些构成了去中心化计算基础设施的基础,其中计算单元被移至网络边缘。边缘设备的整体设计,包括接口和通信协议,通常被称为网关。在应用层接口处,使用所谓的物联网集成中间件来在软件侧集成设备、传感器和执行器。基于网关,有必要整合来自不同数据源、各种接口和通信协议的数据。中间件的典型任务包括设备管理或作为任务与消息的代理。
参考架构模型为设计从传感器和执行器到云端应用的物联网环境提供了可能性,但这些模型大多是理论性的架构模型,缺乏面向用户的硬件和软件推荐。针对预测性维护的参考模型各层级的具体规格说明尚未出现。在第四节中,结合实现预测性维护 retrofit 的具体设计选项,介绍了典型参考架构的各个层级。
3.2 机器学习
预测性维护的目标是基于数据流中的关键模式,检测工厂和组件即将发生的故障。在具有大量数据且影响变量(如以往寿命和负载)与目标变量(如组件的剩余使用寿命(RUL)、故障概率或故障模式)之间存在未知相关性的复杂系统中,越来越多地采用源自统计学和人工智能领域的机器学习方法。“机器学习”指的是利用数学算法在数据集中发现未知的、非平凡的关系、模式和结构,该术语与“数据挖掘”同义 [13]。
在预测性维护中,正在使用大量的机器学习过程和算法。可以基本区分为监督学习与无监督学习方法 [14]。无监督学习用于在历史数据集中寻找新的模式和相关性,而无需预先知道目标或结果(即标签)。典型的模型包括聚类或关联规则。在监督学习过程中,标签是已知的,例如某个部件的故障行为。模型和学习参数可由用户迭代地开发,或通过进化优化策略自动开发。根据鲁棒性、准确率、普遍有效性或预测质量等标准,必须确定适用于特定任务的最佳模型。因此,监督学习方法可用于确定影响变量(如测量值)与目标变量(如故障或剩余使用寿命)之间的关系。其前提是存在足够大的数据库,该数据库可基于历史数据,或通过实验生成。由于预测性维护通常缺乏此类数据库,且生成数据的实验需要高时间与金钱成本,因此该方法在实际中的实施较为困难。
另一种建模方法是异常检测,旨在识别数据集中的意外模式。异常检测可分为有监督和无监督。
异常检测[15]。在监督式异常检测中,数据集会被赋予正常与异常行为的标签,并基于这些标签学习一个预测模型。通过为不同的错误模式分配不同的标签,可以进一步细化异常分类。在模型应用时,新的数据集将被归类为正常或异常类别。所使用的算法包括有监督机器学习中的决策树、支持向量机或神经网络。另一种可能的输出是计算一个量化异常程度的分数。而在无监督异常检测中,则不使用历史标注数据,而是基于这样一个前提:在现有数据集中,正常行为的发生频率显著高于异常行为。所采用的算法会考虑随时间变化的密度或距离度量,以计算异常分数[16]。然而,无监督异常检测也伴随着较高的误判风险,因为缺乏对正常行为或异常的验证。
下一节将展示如何将物联网和机器学习应用于预测性维护。
4 案例研究:旧机器人单元的改造
在上一节中,物联网参考架构、改造解决方案和机器学习的介绍为开发面向棕地系统的预测性维护改造工具包提供了技术基础。以下摘要描述了通过对一个适用于连续运行的旧机器人单元进行改造,来实施技术演示装置的过程。
首先,详细讨论了为工业展会展品实现预测性维护的需求;然后介绍了改造架构的结构;最后完成了针对一个示例用例的多种预测模型的部署与评估。
该演示系统由一个曾用于工业生产的机器人单元组成,现已改造为展会展品。该单元的核心是一台Adept Quattro s650H 机器人,用于从传送带上拾取未对准的太阳能晶圆,并将其放置在工件载体上。位置定位通过视觉检测系统实现。单元内部的输送技术确保晶圆在被机器人抓取前,能够在传送带上以可变位置重新放置。整个生产周期可重复执行。由于集成了多种子系统,如电机、轴、气动系统、视觉系统以及与附加测量技术结合的循环功能,该机器人单元适用于多种数据驱动的应用,特别是预测性维护领域。
4.1 机器人单元的预测性维护要求
实施预测性维护的基本前提是能够得出有关潜在错误模式的有意义的数据。这一前提条件还可以进一步分为三个子条件。首先,需要一组能够测量相关物理特征的传感器。一项对现有预测性维护应用的研究表明,其成功引入在很大程度上依赖于传感器类型,这些类型能够测量加速度、湿度、声学、压力、温度和电气性能 [17]。其次,传感器必须安装在系统内的合理位置;第三,数值必须以足够的频率进行记录,以便能够记录事件的影响。测量频率范围可以从几分钟一次(例如环境测量)到千赫兹范围(例如用于振动分析)。除了数据采集的要求外,预测性维护还对数据预处理和分析提出了要求。
然而,在完成预测性维护模型的有监督或无监督学习后,其部署会带来进一步的要求。必须持续将预测模型应用于当前数据,以便尽早做出决策并触发相应措施。这带来了两个挑战:一方面,需要在所有系统接口之间实现连续数据流;另一方面,数据必须被一致且统一地描述。对于预测性维护而言,这种描述尤其包括对传感器实例和系统组件的明确归属。当系统中包含相同元素时,尤其会引发挑战。此外,还需要通过时间戳对来自不同来源的同步数据进行明确关联。所有通过相同时间戳相互关联的特征值统称为特征向量。
进一步的要求源于所使用的学习过程。在工业实践中,维护人员通常了解错误模式及其原因[4]。在这种情况下,这是一个分类问题,意味着预测模型必须将实时数据流与过去导致故障的已知模式进行比较。然而,在少数情况下,新的、不可预见的影响也可能导致系统或组件发生故障。此时,无法与历史事件建立关联,因此预测模型必须在数据集中无监督地检测异常。
对于预测模型的学习,需要包含足够数量特征向量的历史数据,这些特征向量需配备所谓的标签,例如干扰代码。这些标签构成类别,预测模型在应用中将采集到的特征向量分配给这些类别,以实现故障或故障预测。由于在运行过程中可能会反复出现新的错误模式,因此为了可持续地引入预测性维护,有必要生成额外的标签并将其分配给相应的特征向量,以便这些数据可用于训练新模型或改进现有模型。
对于预测性维护,需要建立一个机器学习环境,并将分析结果集成到维护流程中,例如在维护管理系统中实现自动异常警告和调整维护计划。
4.2 构建演示系统的架构
基于预测性维护的需求以及对用户友好性和低成本的要求,已确定了构建技术演示装置架构的解决方案。[11]的物联网参考架构的视图层级作为结构设计的基础。
4.2 构建演示系统的架构(续)
传感器和执行器 预测的有意义数据
用于预测性维护的数据包括工厂的过程和交易数据以及环境数据。虽然新工厂通常配备各种传感器和与上级系统的接口,但旧工厂往往不具备这些条件。一方面,用于改造的潜在数据源是低成本的微机电系统(MEMS)传感器,这类传感器广泛应用于智能设备和汽车电子中;另一方面,有必要集成现有系统内部可编程逻辑控制器(PLC)的数据,以获取运行状态及其他物理测量值。
在工业系统中,用于协调流程和机器组件的数据来自标准传感器,在演示系统中则来自连接到PLC的限位开关、增量编码器和光障。这些传感器数据的一个重要优势在于,其用途不仅限于程序的运行,通过正确解释还可用于其他应用——包括预测性维护。
附加的传感器提供了记录控制系统无法采集的数据的可能性。来自消费行业的单板计算机用MEMS代表了一种低成本且易于安装的替代方案。在此案例中,选用了所谓的感知帽,它为树莓派扩展了六个传感器单元。陀螺仪和磁力计用于确定移动物体的空间位置。加速度传感器可检测三个轴向的振动。此外,该传感器模块还支持气压、湿度和温度传感器,以测定环境影响。
设备和网关 对于物联网架构
技术演示装置的边缘设备集成了可编程逻辑控制器和树莓派Sense Hat的数据。该演示系统的内置控制具有自主运行的特点,并且不与机器人单元外部的系统存在接口。此外,其数据对于西门子S7‐300 PLC之外的应用程序而言不易获取,因为外部访问受限。因此,它代表了现有工厂中典型的控制系统。实际的机器对机器通信协议(如OPC UA)能够弥合控制数据与高层计算机系统之间的鸿沟[18]。尽管该演示系统的PLC不支持这些协议,但它连接到一个运行OPC UA服务器的边缘设备。该OPC UA适配器提供了读取PLC中所有数据块内传感器值和参数的可能性。这些值随后可供下游系统(如OPC UA客户端)使用,例如物联网网关。
其他边缘设备,以树莓派微控制器为代表,为传感器板供电,并通过 MQTT [19]将其集成到物联网架构中。利用此物联网协议,感知帽的每个传感器都成为一个发布者,将每个新测得的传感器值连同相应的主题发送到中央服务器,即所谓的MQTT代理。架构中的各种客户端随后可以通过主题名称订阅这些值。
物联网中间件和应用
在应用层进行数据处理的编排与执行时,需要一个具备通信接口和业务流程引擎的集成层。该集成层可以在机器人单元、生产系统中去中心化地分布,也可以集中式地整合。采用去中心化方式,一方面可以充分利用整个物联网的计算能力,另一方面可实现流程的并行化。然而,在所有流程的同步或顺序控制方面存在难题,因为跨流程的并行性难以有效表达。而集中式方法则提供了更高的透明性。
Node‐RED 是一种用于数据流编程的开源工具,已在边缘计算领域中得到广泛应用,用于集成各种物联网应用和设备,其运行于本地计算机 [20] 上。庞大的开发者社区(如今包括个人和公司)创建了广泛的接口库,如 OPC UA 或 MQTT,以及数据预处理过程。因此,Node‐RED 为连接和协调大量常见设备和传感器提供了简便的方法,可作为物联网中的网关软件。基于此背景,选择了 Node‐RED 来连接三个层级的系统。在图3所示的网关简化示意图中,选用了一组 RaspberryPi 传感器模块的传感器和 OPC UA 服务器,将各种数据源连接至用于状态监测的仪表板。此外,数据流被存储在数据库中,为后续的机器学习应用和用户交互工具提供基础。在扩展简单的状态监测仪表板的基础上,吊臂维护管理器作为辅助系统服务于维护的操作流程。在实现演示系统时,采用了标准功能,例如活动到组件的分配、根据调度的维护信息和说明的提供。此外,预测模型的结果可以提供故障警告,从而调整计划。作为预测性维护核心要素的机器学习过程将在接下来的段落中详细描述。
4.3 预测性维护与机器学习
该演示系统采用CRISP‐DM框架[21]实现,因为它将机器学习整合到一个包含部署的结构化项目流程中。它通过将项目进程划分为六个阶段(商业理解、数据理解、数据准备、建模、评估和部署)提供了框架和结构,这些阶段也构成了以下案例研究的结构。
商业理解阶段用于确定并缩小数据分析任务的目标和需求。由于该演示系统为预测性地检测即将发生的故障和机器停机提供了一种改造方案,因此选择合适的维护策略具有重大影响。在此背景下,必须根据错误模式所造成的后果对其进行评估,以便将实施所需的工作量与带来的效益进行比较。例如,故障模式与影响分析(FMEA)提供了一种结构化的方法,用于评估错误的原因、检测概率及其后果。在第一步中,已识别出第4.1节所述机器人单元的典型错误模式:
- 动力传动系统打滑
- 滚动轴承故障
- 相机系统干扰,例如由于反射引起
- 空气压缩系统故障
在数据理解阶段,将对可用数据进行收集或探索性分析。作为演示系统搭建的一部分,由于对老旧工厂进行改造的典型情况,无法获得有关工艺序列和故障模式的历史数据。因此,通过第4.2节所述的改造方法,在系统中人为引入了潜在故障,并利用传感器对受影响的部件进行了正常行为以及不同程度故障模式下的测量序列采集。图4展示了动力传动系统中“链条打滑”错误模式的示例,其中链条张力不足并处于不同的磨损阶段。由于可编程逻辑控制器和各个传感器等不同数据源产生的数据均为原始格式,因此下一步需要进行数据预处理,然后才能应用机器学习。
数据准备一方面通过物联网架构实现,该架构支持将原始数据持续写入数据库以及读取这些数据。另一方面,数据集的检索和为机器学习做准备的工作在 RapidMiner软件中完成。对于高频测量值,首先进行压缩与聚合,例如通过均值、中位数、众数、最大值、最小值、标准差和方差等方式。针对每个测量点和传感器,每周期开发了大量属性,即所谓的特征。缺失值被插值处理或从后续处理中排除。第一步开发了340个特征,用于表征操作循环的重复周期,形成特征向量。特征提取与选择在数据准备中具有重要意义。通过各种过滤法、包装法和嵌入式方法[22],可以减少特征数量,从而使算法能够基于构成特征高速地进行学习和评分。最初通过特征之间的相关性分析和手动预选,将特征数量减少至80个。
大量特征可以对状态进行详细描述,但会带来冗余性,并存在歧视代表性不足的特征的风险。从数据流实时分析的角度来看,应尽可能使用最少的判别属性,在较短的计算时间内实现较高的预测质量。接下来,通过多种过滤方法进一步减少数据集,包括信息增益 (IG)、基于相关性的特征选择 (CFS)、卡方特征选择 (CHI2)、基尼指数 (GI)、Relief 和最小冗余最大相关性 (mRMR),确定了最重要的 24、18 和 12 个特征。此外,还进行了线性特征提取,采用主成分分析 (PCA)、独立成分分析 (ICA) 和奇异值分解 (SVD) 提取 8 个特征;并使用自组织映射(SOM)进行了非线性特征提取,分别提取 4、3 和 2 个特征。
所有中间步骤的结果均被用于建模,以评估不同算法在不同特征选择下的效果。
在建模过程中,预处理数据集被划分为随机测试和训练数据集。因此,预测模型可以在数据集的一部分上进行有监督训练,并在其未知部分上评估其性能。
建模也是在 RapidMiner 软件中基于预处理完成的。使用了朴素贝叶斯分类器、广义线性模型(GLM)、神经网络(NN)、决策树(DT)、随机森林(RF)和梯度提升树(GBT)[23]来预测错误模式。
建模结果从性能和计算时间方面进行了评估。表1以紧凑的形式展示了所有建模在准确率目标方面的结果。准确率是所有正确预测值与所有数据集的商,因此代表了不同模型性能的第一个可比性级别。
| 准确率 [%] | 朴素贝叶斯 | 广义线性模型 | 神经网络 | DT | RF | GBT | # 特征 |
|---|---|---|---|---|---|---|---|
| 准备好的数据集 | 74.40 | 80.44 | 89.91 | 70.28 | 81.94 | 94.64 | 80 |
| 筛选(前24) | 73.11 | 73.11 | 90.90 | 74.14 | 84.21 | 93.96 | 24 |
| 筛选(前18) | 72.59 | 72.59 | 90.34 | 90.53 | 84.45 | 93.60 | 18 |
| 筛选(前12) | 72.20 | 72.20 | 90.06 | 90.53 | 84.50 | 92.70 | 12 |
| PCA | 64.10 | 64.10 | 78.57 | 67.94 | 57.23 | 78.35 | 8 |
| SVD | 64.06 | 64.06 | 79.32 | 58.13 | 59.72 | 78.60 | 8 |
| ICA | 64.86 | 64.86 | 78.87 | 59.97 | 57.27 | 76.74 | 8 |
| 自组织映射(4维) | 53.40 | 53.40 | 73.80 | 75.22 | 62.71 | 81.18 | 4 |
| 自组织映射(3维) | 56.62 | 56.62 | 76.34 | 80.03 | 65.23 | 82.94 | 3 |
| 自组织映射(2维) | 57.21 | 57.21 | 74.80 | 77.42 | 71.68 | 79.72 | 2 |
首先,从准确率来看,不同的建模方法在分类分析中的适用性存在差异。深度学习(DL)和梯度提升树(GBT)表现最佳,但考虑到模拟的错误模式,其他方法也取得了相对较好的结果。各方法的运行时间差异显著。其中,朴素贝叶斯(NB)和广义线性模型(GLM)的运行时间非常短,深度学习(DL)和决策树(DT)的运行时间较短,而随机森林(RF)和梯度提升树(GBT)则需要明显更长的时间。表现最好的GBT所需的计算时间为4,348个时间单位。在测试案例中,一个时间单位为一秒,但在其他系统配置下可能会有所不同。随着维度降低,建模方法的运行时间也随之减少。这一点在决策树(DT)上尤为明显,例如,使用ICA时运行时间为24个时间单位,而使用四维自组织映射(SOM)时则仅需2个时间单位。
可以得出结论,通过减少考虑的特征,同样可以实现运行时间的缩短。然而与此同时,准确率并未在所有步骤中进一步提高。相反,特征数量的不断增加导致了预测结果的下降。这凸显了采用迭代启发式方法的必要性。在应用这些步骤时,必须在预测质量与计算开销之间始终做出权衡。一个较好的折衷方案是,将决策树(DT)应用于通过自组织映射(SOM)提取的三维数据集。
使用第4.2节中描述的物联网架构在演示系统上完成了部署。数据流被持续写入数据库,并使用循环在每次处理周期后对新数据集进行预处理,直至使用训练好的模型进行评分。此外,基于Node‐RED实现了状态监测系统,并将维护系统与吊臂维护管理器集成,可用于生成错误消息并自动标注新数据集。
5 结论
预测性维护的优势已得到证实,但在工业应用场景中的成功实施仍缺乏针对老旧系统进行数据采集与分析的经济型改造方案。本文介绍了一种基于消费领域低成本传感器和多数据源集成层的预测性维护系统开发过程。预测性数据分析也给公司带来了重大挑战。文中提出了一种解决方案模式,展示了如何通过所开发的嵌入式系统、其物联网连接以及数据分析技术,来推导出用于异常和即将发生故障的预测性检测决策规则。此外,还以IPS机器人单元的实际应用案例展示了该系统的实施过程。未来的工作任务是将原型传感器套件转化为跨应用批量运行,并生成更多用于传感器数据实时评估的解决方案模式,同时结合硬件和软件开发的进展。此外,实现一个考虑概念漂移的合适模型管理机制也将是后续研究的任务之一。
344

被折叠的 条评论
为什么被折叠?



