17、钢铁生产质量改进的参考架构

最新推荐文章于 2025-12-12 23:56:18 发布

反内卷战士508

最新推荐文章于 2025-12-12 23:56:18 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学：从理论到实践文章标签：钢铁生产质量改进数据挖掘

本文链接：https://blog.youkuaiyun.com/nut55/article/details/154111489

数据科学：从理论到实践专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

钢铁生产质量改进的参考架构

1. 相关工作

在过去，数据挖掘在工业过程质量监控方面发挥了重要作用，例如在钢铁生产流程中，常聚焦于表面质量或根本原因分析。不过，以往的工具主要评估一些相关但静态的量，以找出特定生产问题的根源。由于可用数据量过大，在实际挖掘前会进行大量聚合操作，导致这些方法只能处理产品信息的一小部分。

也有将数据挖掘应用于钢铁行业的工作，侧重于数据处理方法。而本文提出的架构则针对传感时间序列数据进行数据挖掘，强调对未压缩数据的处理，这与传统方法有显著区别，需要对时间序列进行深入分析。将数据以相对未处理的状态存储，并应用数据分析过程，是大数据架构的常见模式，如Nathan Marz提出的Lambda架构，它针对键值对数据。

与以往工作不同的是，本文的工作具有产品导向性。为了高效存储产品相关信息，每个产品（以下称为金属单元）在NoSQL数据库中有虚拟表示。金属单元可以是钢水、钢坯或钢卷，具体取决于产品的物理状态。这种观点在钢铁行业尚属首次，之前的工作并未采用。选择NoSQL数据库存储金属单元，是因为它不依赖于固定统一的数据模式，但其他存储模型也是可行的。

此外，为PRESED项目开发了一系列专用算法，显著扩展了预测数据挖掘领域的现有技术水平。其中包括异常检测、自组织映射和模式发现方法，这些方法使用用例数据进行训练。产品导向的数据概念与机器学习算法之间存在协同效应，新的数据概念允许为每个产品轻松灵活地存储多个标签。

2. 钢铁制造领域

钢铁制造是一个对时间敏感的多步骤过程，生产扁平产品（板材）的典型工艺流程如下：
1. 炼铁：通过高炉从铁矿石中或通过电弧炉从废铁中生产液态铁。
2. 炼钢：通过多个反应器逐步调整液态金属的化学成分，以达到预期目标。
3. 连铸：液态钢凝固成一块钢坯，即一块固态钢。
4. 热轧：钢坯重新加热并热轧，进行第一次长度调整，生产出所谓的“钢卷”。对于扁平产品，钢坯长度通常为20米，而钢卷长度可达数百米。
5. 冷轧：进一步拉长钢卷，根据目标厚度，最终长度可达数公里。
6. 退火和镀锌 ：对钢进行热循环以调整其机械性能，然后施加锌涂层以防止腐蚀。

3. 用例

为了开发PRESED架构并验证方法，考虑了以下用例：
1. 预测裂片发生 ：裂片是钢铁表面质量损失的主要原因之一。该缺陷发生在连铸步骤，当少量炉渣（连铸机顶部残留的各种液态氧化物）在凝固过程中被困在液态钢表面时就会出现。该缺陷的发生与连铸机中液态钢的流动密切相关，而液态钢的流动又与所有工艺条件（温度、速度、连铸执行器等）以非常复杂的方式相关。由于该缺陷通常在工艺的最后一步才被检测到，会导致非常高的重新分配成本。
2. 机械性能分散 ：机械性能是客户对产品最重要的标准之一。如果未达到规格要求，钢铁客户在冲压操作等方面会遇到很多问题。对于某些钢种，机械性能对最后退火周期中的温度微小变化非常敏感。钢在最后一个炉中的热行为高度依赖于从连铸到镀锌线的工艺参数。对这些参数掌握不当会导致机械性能分散，而研究这种现象非常复杂，因为需要考虑整个生产链的数据。
3. 生产过程链 ：该用例旨在控制（非裂片相关的）表面缺陷，提高钢铁产品的内部质量，考虑从电炉到连铸的整个生产链的所有阶段。

下面是钢铁生产流程的mermaid流程图：

graph LR
    A[炼铁] --> B[炼钢]
    B --> C[连铸]
    C --> D[热轧]
    D --> E[冷轧]
    E --> F[退火和镀锌]

4. 架构

该架构旨在解决数据存储、数据挖掘、可视化和概念形式化等各种问题。由于单一的软件框架难以满足用例的多样化需求，因此强调采用一种可扩展的方法，该方法需要满足以下要求：
1. 一个通用的、可塑的数据模型，用于预处理和丰富原始传感器数据。
2. 将各种算法应用于实际问题，如数据转换、特征提取、异常检测或分类。
3. 设计和执行数据挖掘过程，以可视化和连贯的方式涵盖上述需求，支持重用和共享。

该架构满足三类主要利益相关者的需求：
1. 数据工程师 ：将原始数据建模为通用模型。这是一项准备活动，可能不经常进行。
2. 领域专家 ：在统一的数据模型上创建数据挖掘过程。
3. 工厂操作员和管理人员 ：执行之前创建的过程，以获取产品质量和潜在缺陷的高级见解。结果以可视化方式呈现，以辅助人类解释并及时采取纠正措施。

从高层次来看，设计将这些关注点分为三个层面：数据层、分析层和知识层，各层的主要特征和面临的挑战如下：

4.1 数据层

数据层处理来自生产各个阶段（如连铸、热轧或冷轧）的传感器读数。这些“原始”时间序列数据封装在表示金属单元的对象中，并存储在NoSQL数据库中。虽然目前收集的数据量不如其他大数据应用广泛，但预计未来会增长。选择MongoDB是因为它提供了存储非结构化对象的简单性，并且可以高效检索这些对象。它还允许更新对象或整个对象集合，并在需要时为对象添加新属性。这非常适合工业环境，因为传感器数据动态可用，并且在生产过程的某个阶段需要检查相应的读数。

数据层的具体操作如下：
1. 通用数据模型 ：金属单元（钢卷、钢坯或钢水）的结构组成一个通用数据模型。该单元通过其标识符进行识别，并具有聚合节点，这些节点保存来自其生产过程（铸造、热轧或冷轧等）的数据或通过丰富过程获得的数据（以绿色节点表示）。一般来说，这些数据可以是保存固定单变量值的静态变量，也可以是保存时间序列数据的动态变量。此外，关于该单元的信息，如检查数据、切割信息、父/子单元等，也可以通过标识符进行关联。
使用的数据集来自法国和意大利的钢铁厂的真实数据。对于前两个用例，有2261个钢卷的数据，其中1205个被标记（或分类）为优质，1056个为劣质。数据还包括5000个钢坯的连铸阶段数据，如铸造速度、执行器位置、结晶器液位、氩气流量和压力值等。此外，还考虑了一组70个静态和125个动态变量用于数据准备。第三个用例将钢水视为金属单元，涵盖了钢从电炉到连铸阶段的过程，数据包括在2年内收集的10,000个钢水的数据。
2. 通过丰富实现智能数据 ：在应用学习算法之前，需要对数据进行预处理。对于时间序列数据，数据量不是唯一的关键因素。为了提供定性可靠的信息，需要额外的丰富技术。首先进行合理性检查，如使用一致的单位、处理缺失值和归一化数据范围。归一化还可以在项目合作伙伴之间共享数据时对可能敏感的数据进行匿名化处理。由于产品的铣削或切割，金属单元的长度可能会发生变化。此外，由于卷取和解卷操作，钢卷的头部会转换为尾部，反之亦然。对于这些情况，当金属单元内部的几何形状发生变化，或者在不同阶段使用不同的采样间隔进行传感数据采集时，通过将所有采样点较低的数据插值到最高分辨率的离散化上进行重新缩放，以保留高分辨率数据的信息，避免下采样导致的信息丢失。
3. 系统的过程设计 ：下一步是将这些重复操作系统地组合成一个可执行的数据挖掘过程。这一活动通过开源且免费使用的RapidMiner工具来支持，该工具允许以图形方式创建数据挖掘过程。过程类似于由任务组成的管道，这些任务通过拖放机制连接在一起。任务可以执行ETL（提取、转换和加载）或机器学习操作，通过调用不同的算法并评估其性能。例如，通过转换函数对原始传感器值进行数据丰富。首先，过程从MongoDB实例读取数据，并将JSON格式转换为内存表示。然后，通过应用异常检测算法进行特征提取，再根据异常得分过滤数据集。最后，调用Python脚本生成可视化，显示杂质（结晶器）液位的傅里叶变换，展示1000个钢坯的分类情况（优质或劣质）。这种转换过程有助于检测或突出信号的某些特性，如计算导数或应用信号空间变换。由于数据模式具有可塑的特点，可以预先计算转换结果并将其附加到现有的金属单元上，从而使计算密集型转换的结果也可重用。预测分析的复杂过程也以同样的方式设计和应用。

下面是数据层操作步骤的表格：
| 步骤 | 操作 | 说明 |
| — | — | — |
| 1 | 通用数据模型 | 构建金属单元的通用数据模型，关联生产过程数据和相关信息 |
| 2 | 数据丰富 | 进行合理性检查、归一化等预处理，处理几何形状变化和采样间隔问题 |
| 3 | 过程设计 | 使用RapidMiner工具创建可执行的数据挖掘过程，进行特征提取和可视化 |

钢铁生产质量改进的参考架构

5. 分析层

分析层负责管理和执行数据挖掘过程，其核心是分析服务器，该服务器提供以下功能：
1. 存储库 ：用于存储RapidMiner过程，通过提供共享访问方便团队协作。
2. 执行核心 ：根据需求执行数据挖掘过程。
3. 仪表盘视图 ：允许浏览数据，并以图表形式（使用Python和/或JavaScript库）显示执行结果。这些可视化可以通过查询参数进行定制，因为分析服务器将过程作为REST - full Web服务公开，这为与遗留系统的互操作性以及将预测结果投入实际应用铺平了道路。

分析层的操作流程如下：
1. 数据工程师或领域专家将设计好的RapidMiner过程上传到分析服务器的存储库中。
2. 工厂操作员和管理人员根据需求，通过分析服务器的执行核心调用相应的过程。
3. 执行结果通过仪表盘视图以图表形式展示，用户可以根据需要通过查询参数定制可视化效果。

下面是分析层操作流程的mermaid流程图：

graph LR
    A[上传RapidMiner过程到存储库] --> B[调用执行核心执行过程]
    B --> C[通过仪表盘视图展示结果]
    C --> D{定制可视化?}
    D -- 是 --> E[通过查询参数定制]
    D -- 否 --> F[结束]
    E --> F

6. 数据挖掘算法与技术

在数据挖掘过程中，针对多元时间序列数据，需要解决一些特定问题，并采用相应的算法和技术。

6.1 特征提取

处理多元时间序列数据时，提取最相关的特征至关重要。传感器数据的动态方面（测量值的时间演变）包含的信息面临以下特定问题：
1. 相关时间信息编码复杂 ：相关的时间信息通常以多种复杂方式编码，如分段、尖峰、周期性、漂移等，相关信息可能是整个信号或仅为子序列。
2. 多变量特性 ：在工业环境中，时间序列通常是多变量的，多个传感器同时测量产品的过程参数。
3. 噪声问题 ：时间序列特别容易受到噪声影响，包括典型的测量噪声和过程变异性。

时间序列还存在时间轴噪声和局部未对齐问题，并且在比较时间序列时，高维度是一个突出问题，在数学中被称为“维度灾难”。针对这些问题，采用了以下解决方案：
1. 低通滤波器 ：用于去除时间轴噪声。
2. 动态时间规整 ：解决局部未对齐问题。
3. 降维算法 ：应对高维度问题。

这些解决方案被纳入数据丰富过程中。此外，与过程专家合作，开发了一种基于形状特征概念的有监督时间模式发现方法，旨在发现时间序列中的局部判别子序列，搜索由产品质量信息驱动。为了解决发现过程的可扩展性问题，还开发了形状特征概念的泛化方法，以高效地发现与上下文相关的各种形状特征。

特征提取的操作步骤如下：
1. 对原始时间序列数据应用低通滤波器，去除时间轴噪声。
2. 使用动态时间规整方法处理局部未对齐问题。
3. 运用降维算法降低数据维度。
4. 应用基于形状特征概念的有监督时间模式发现方法，发现局部判别子序列。