41、AFER：用于机器人预测的自动化特征工程及改进的过程挖掘算法

最新推荐文章于 2025-10-11 09:07:25 发布

echo99

最新推荐文章于 2025-10-11 09:07:25 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：智能机器人前沿探秘文章标签： AFER算法自动化特征工程弹性网络回归

本文链接：https://blog.youkuaiyun.com/echo99/article/details/152245674

智能机器人前沿探秘专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

AFER：用于机器人预测的自动化特征工程及改进的过程挖掘算法

1. AFER 算法概述

在机器人预测领域，需要稳定且高效的自动特征工程算法。以往多数基于生成 - 选择的策略通过一组依赖经验的预定义算子来生成特征，但为每个特定数据集预定义合适的算子集并不实际。因此，提出了 AFER 算法，它使用弹性网络回归来挖掘特征对之间的相关和不同信息，以生成和选择特征。

2. AFER 设计原理

弹性网络回归的应用 ：使用弹性网络回归拟合特征对，能有效且稳定地构建有效且不同的特征。同时，基于弹性网络回归的递归特征消除算法过滤特征，可使模型更高效，避免维度灾难。
优势体现 ：特征对之间的关系和信息可能因类别而异。虽然不能保证每个特征对的相关信息都能挖掘出有效且显著的差异，但在大量特征对的回归挖掘过程中，有望获得不同且优质的潜在信息。而且，弹性网络回归的应用使挖掘方法趋于稳定，只需将其作为稳定的回归工具，无需进行过多的多参数优化。

3. AFER 的机制

AFER 算法主要包括特征生成和特征选择两个主要步骤：

graph LR
    A[原始特征空间] --> B[特征生成]
    B --> C[新特征空间]
    C --> D[特征选择]
    D --> E[优化后的特征空间]

特征生成
- 距离相关性的使用 ：通过距离相关性将特征对的关系分为线性或非线性，并剔除独立的特征对。距离相关性具有诸多优势，如能克服 Pearson、Spearman 和 Kendall 相关性的缺陷，能捕捉所有类型的线性和非线性关系，严格准确地判断特征间的独立性；在判断线性或非线性方面优于其他方法，能平衡覆盖所有函数关系，并在不同类型的噪声下给出近似相似的结果。线性关系的距离相关性在 0.7 到 1 之间，非线性关系在 0 到 0.7 之间，为克服边缘不稳定的缺陷，非线性限制放宽到 0 到 0.8，线性限制放宽到 0.6 到 1。
- 距离相关性公式 ：
  - 距离相关性公式为：$\hat{dcorr}(u, v) = \frac{\hat{dcov}(u, v)}{\sqrt{\hat{dcov}(u, u)\hat{dcov}(v, v)}}$
  - 其中，$\hat{dcov}(u, v)$ 可计算为 $\hat{dcov}^2(u, v) = S_1’ + S_2’ - 2S_3’$
  - $S_1’ = \frac{1}{n^2}\sum_{i=1}^{n}\sum_{j=1}^{n} |u_i - u_j| {d_u}|v_i - v_j| {d_v}$
  - $S_2’ = \frac{1}{n^2}\sum_{i=1}^{n}\sum_{j=1}^{n} |u_i - u_j| {d_u} \frac{1}{n^2}\sum {i=1}^{n}\sum_{j=1}^{n} |v_i - v_j|_{d_v}$
  - $S_3’ = \frac{1}{n^3}\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{l=1}^{n} |u_i - u_l| {d_u}|v_i - v_l| {d_v}$
- 回归拟合生成新特征 ：使用弹性网络回归拟合线性特征对，使用带多项式核的弹性网络回归拟合非线性特征对。弹性网络回归结合了岭回归和套索回归的优点，其成本函数为：$\min_{\omega} \frac{1}{2n}|X\omega - y|_2^2 + \alpha\rho|\omega|_1 + \frac{\alpha(1 - \rho)}{2}|\omega|_2^2$。每个相关特征对 $(F_i, F_j)$ 会生成两种新特征：
  - 预测特征 ：通过对每个相关特征对中的 $F_i$ 关于 $F_j$ 进行回归拟合构建，记为 $F_{prediction}$。$F_i$ 关于 $F_j$ 的回归和 $F_j$ 关于 $F_i$ 的回归不同，会生成各自的新特征。理论上，新特征包含线性和非线性特征对中隐藏的潜在有价值信息，多数新特征与原始特征不同且表现出色。
  - 差异特征 ：通过原始特征 $F_j$ 与 $F_{prediction}$ 作差生成，记为 $F_{difference}$，即 $F_{difference} = F_j - F_{prediction}$，用于捕捉原始特征和预测特征之间的差异。
特征选择
- 递归特征消除算法 ：使用基于正则化回归的递归特征消除算法，通过不断构建弹性网络回归模型，对新生成的特征空间和原始特征空间的融合进行修剪，选择表现最优的特征。该算法在特征选择步骤中具有重要作用，一方面能提高性能并防止过拟合，另一方面可减少特征数量，避免维度灾难。
- 核心步骤 ：
  1. 为每个特征赋予权重，并在预定义模型上进行训练。
  2. 获取特征的权重后，丢弃绝对权重最小的特征。
  3. 递归继续，直到剩余特征的数量达到阈值。

4. 实验

数据集 ：使用来自 UC Irvine 存储库的 6 个分类数据集进行评估，其特征如下表所示：
| 数据集名称 | 标签 | 特征 | 大小 |
| — | — | — | — |
| Sonar | 2 | 60 | 208 |
| Ionosphere | 2 | 34 | 351 |
| Haberman | 2 | 3 | 306 |
| E. coli | 8 | 7 | 336 |
| Wine | 3 | 13 | 178 |
| Abalone | 3 | 7 | 4177 |
实验设置 ：评估 6 种分类算法（K - 近邻、逻辑回归、支持向量机、随机森林、决策树和 Adaboost），并将模型与原始数据集以及其他 3 种自动特征工程方法（TFC、ExploreKit 和 AutoLearn）进行比较，通过分类准确率来衡量评估性能。
评估比较 ：实验结果表明，在所有 6 个数据集和 6 种分类算法中，AFER 算法的分类准确率比原始特征空间提高了 2.27%，证实了 AFER 能自动生成和选择大量具有潜在关系和不同信息的信息丰富且重要的特征。
特征分析 ：通过比较原始特征和生成特征的重要性，发现 AFER 构建的部分新特征比原始特征具有更高的相对重要性，说明该模型达到了预期目标。
回归演示 ：对相关特征对的回归拟合过程进行分析，结果显示预测特征挖掘了特征对的相关性，差异特征搜索了原始特征和预测特征之间的潜在变化。

5. 改进的过程挖掘算法

在工业机器人逐渐应用于智能制造领域的背景下，生产过程的透明度和产品质量控制存在问题。使用过程挖掘技术分析机器人生产过程中收集的日志信息是解决这些问题的一种方法。近年来，过程挖掘中的一致性检查发展迅速，但并非所有算法都适用于实际的智能制造场景。针对近年来提出的 Log Skeleton 算法在制造过程中不能准确表达过程模型的问题，提出了一种改进方案，并设计了基于该算法的改进一致性检查方案，使其更适合实际应用。
- 问题提出 ：工业机器人在智能制造中的应用面临生产过程透明度和产品质量控制的问题，需要通过分析生产过程中的日志信息来解决。
- 改进方案 ：对 Log Skeleton 算法进行改进，设计改进的一致性检查方案。
- 实验验证 ：通过实验验证改进算法在实际制造环境中的性能，结果表明改进方案提高了 Log Skeleton 算法在实际生产环境中的应用价值。

AFER：用于机器人预测的自动化特征工程及改进的过程挖掘算法

6. 改进的 Log Skeleton 算法流程

改进的 Log Skeleton 算法主要围绕解决原算法在制造过程中不能准确表达过程模型的问题展开，其具体流程如下：

graph LR
    A[收集机器人生产日志信息] --> B[对日志信息进行预处理]
    B --> C[应用改进的 Log Skeleton 算法构建过程模型]
    C --> D[进行一致性检查]
    D --> E[根据检查结果优化过程模型]

收集机器人生产日志信息 ：在工业机器人的生产过程中，记录每一个操作步骤、时间戳、操作结果等信息，形成详细的日志记录。
对日志信息进行预处理 ：对收集到的日志信息进行清洗，去除噪声数据和错误记录；对数据进行标准化处理，统一数据格式和范围，以便后续分析。
应用改进的 Log Skeleton 算法构建过程模型 ：基于预处理后的日志信息，利用改进的 Log Skeleton 算法构建能够准确反映实际生产过程的模型。该算法在原算法基础上进行了优化，更能适应制造过程的复杂性。
进行一致性检查 ：将实际的生产日志与构建的过程模型进行对比，检查两者之间的一致性。通过分析差异，找出可能存在的问题，如流程违规、操作失误等。
根据检查结果优化过程模型 ：根据一致性检查的结果，对过程模型进行调整和优化。如果发现模型与实际生产过程存在较大偏差，需要重新调整算法参数或改进模型结构，以提高模型的准确性和适用性。

7. 改进算法的优势分析

准确性提升 ：原 Log Skeleton 算法在某些复杂的制造过程中可能无法准确表达过程模型，而改进后的算法通过优化模型结构和参数，能够更精确地捕捉生产过程中的各种关系和约束，从而提高了模型的准确性。
适应性增强 ：改进算法考虑了实际制造场景中的多样性和不确定性，能够更好地适应不同类型的生产过程和日志数据。无论是简单的流水线生产还是复杂的多工序协同生产，都能有效地构建和分析过程模型。
应用价值提高 ：通过实验验证，改进方案显著提高了 Log Skeleton 算法在实际生产环境中的应用价值。企业可以利用改进后的算法更准确地监控生产过程，及时发现和解决问题，从而提高生产效率和产品质量。

8. 总结与展望

AFER 算法总结 ：AFER 算法通过使用弹性网络回归进行特征生成和选择，有效地解决了机器人预测中特征工程的问题。实验结果表明，该算法能够自动生成和选择大量具有潜在关系和不同信息的重要特征，提高了分类准确率。
改进的 Log Skeleton 算法总结 ：针对 Log Skeleton 算法在制造过程中的不足，提出的改进方案和一致性检查方案，经过实验验证，提高了算法在实际生产环境中的应用价值，有助于解决工业机器人生产过程中的透明度和质量控制问题。
未来展望 ：在未来的研究中，可以进一步探索 AFER 算法与强化学习的结合，以更好地应用于机器人预测和智能自动化领域。对于改进的 Log Skeleton 算法，可以继续优化算法性能，扩大其在不同制造场景中的应用范围，为智能制造的发展提供更有力的支持。