41、AFER:用于机器人预测的自动化特征工程及改进的过程挖掘算法

AFER:用于机器人预测的自动化特征工程及改进的过程挖掘算法

1. AFER 算法概述

在机器人预测领域,需要稳定且高效的自动特征工程算法。以往多数基于生成 - 选择的策略通过一组依赖经验的预定义算子来生成特征,但为每个特定数据集预定义合适的算子集并不实际。因此,提出了 AFER 算法,它使用弹性网络回归来挖掘特征对之间的相关和不同信息,以生成和选择特征。

2. AFER 设计原理
  • 弹性网络回归的应用 :使用弹性网络回归拟合特征对,能有效且稳定地构建有效且不同的特征。同时,基于弹性网络回归的递归特征消除算法过滤特征,可使模型更高效,避免维度灾难。
  • 优势体现 :特征对之间的关系和信息可能因类别而异。虽然不能保证每个特征对的相关信息都能挖掘出有效且显著的差异,但在大量特征对的回归挖掘过程中,有望获得不同且优质的潜在信息。而且,弹性网络回归的应用使挖掘方法趋于稳定,只需将其作为稳定的回归工具,无需进行过多的多参数优化。
3. AFER 的机制

AFER 算法主要包括特征生成和特征选择两个主要步骤:

graph LR
    A[原始特征空间] --> B[特征生成]
    B --> C[新特征空间]
    C --> D[特征选择]
    D --> E[优化后的特征空间]
  • 特征生成
    • 距离相关性的使用 :通过距离相关性将特征对的关系分为线性或非线性,并剔除独立的特征对。距离相关性具有诸多优势,如能克服 Pearson、Spearman 和 Kendall 相关性的缺陷,能捕捉所有类型的线性和非线性关系,严格准确地判断特征间的独立性;在判断线性或非线性方面优于其他方法,能平衡覆盖所有函数关系,并在不同类型的噪声下给出近似相似的结果。线性关系的距离相关性在 0.7 到 1 之间,非线性关系在 0 到 0.7 之间,为克服边缘不稳定的缺陷,非线性限制放宽到 0 到 0.8,线性限制放宽到 0.6 到 1。
    • 距离相关性公式
      • 距离相关性公式为:$\hat{dcorr}(u, v) = \frac{\hat{dcov}(u, v)}{\sqrt{\hat{dcov}(u, u)\hat{dcov}(v, v)}}$
      • 其中,$\hat{dcov}(u, v)$ 可计算为 $\hat{dcov}^2(u, v) = S_1’ + S_2’ - 2S_3’$
      • $S_1’ = \frac{1}{n^2}\sum_{i=1}^{n}\sum_{j=1}^{n} |u_i - u_j| {d_u}|v_i - v_j| {d_v}$
      • $S_2’ = \frac{1}{n^2}\sum_{i=1}^{n}\sum_{j=1}^{n} |u_i - u_j| {d_u} \frac{1}{n^2}\sum {i=1}^{n}\sum_{j=1}^{n} |v_i - v_j|_{d_v}$
      • $S_3’ = \frac{1}{n^3}\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{l=1}^{n} |u_i - u_l| {d_u}|v_i - v_l| {d_v}$
    • 回归拟合生成新特征 :使用弹性网络回归拟合线性特征对,使用带多项式核的弹性网络回归拟合非线性特征对。弹性网络回归结合了岭回归和套索回归的优点,其成本函数为:$\min_{\omega} \frac{1}{2n}|X\omega - y|_2^2 + \alpha\rho|\omega|_1 + \frac{\alpha(1 - \rho)}{2}|\omega|_2^2$。每个相关特征对 $(F_i, F_j)$ 会生成两种新特征:
      • 预测特征 :通过对每个相关特征对中的 $F_i$ 关于 $F_j$ 进行回归拟合构建,记为 $F_{prediction}$。$F_i$ 关于 $F_j$ 的回归和 $F_j$ 关于 $F_i$ 的回归不同,会生成各自的新特征。理论上,新特征包含线性和非线性特征对中隐藏的潜在有价值信息,多数新特征与原始特征不同且表现出色。
      • 差异特征 :通过原始特征 $F_j$ 与 $F_{prediction}$ 作差生成,记为 $F_{difference}$,即 $F_{difference} = F_j - F_{prediction}$,用于捕捉原始特征和预测特征之间的差异。
  • 特征选择
    • 递归特征消除算法 :使用基于正则化回归的递归特征消除算法,通过不断构建弹性网络回归模型,对新生成的特征空间和原始特征空间的融合进行修剪,选择表现最优的特征。该算法在特征选择步骤中具有重要作用,一方面能提高性能并防止过拟合,另一方面可减少特征数量,避免维度灾难。
    • 核心步骤
      1. 为每个特征赋予权重,并在预定义模型上进行训练。
      2. 获取特征的权重后,丢弃绝对权重最小的特征。
      3. 递归继续,直到剩余特征的数量达到阈值。
4. 实验
  • 数据集 :使用来自 UC Irvine 存储库的 6 个分类数据集进行评估,其特征如下表所示:
    | 数据集名称 | 标签 | 特征 | 大小 |
    | — | — | — | — |
    | Sonar | 2 | 60 | 208 |
    | Ionosphere | 2 | 34 | 351 |
    | Haberman | 2 | 3 | 306 |
    | E. coli | 8 | 7 | 336 |
    | Wine | 3 | 13 | 178 |
    | Abalone | 3 | 7 | 4177 |
  • 实验设置 :评估 6 种分类算法(K - 近邻、逻辑回归、支持向量机、随机森林、决策树和 Adaboost),并将模型与原始数据集以及其他 3 种自动特征工程方法(TFC、ExploreKit 和 AutoLearn)进行比较,通过分类准确率来衡量评估性能。
  • 评估比较 :实验结果表明,在所有 6 个数据集和 6 种分类算法中,AFER 算法的分类准确率比原始特征空间提高了 2.27%,证实了 AFER 能自动生成和选择大量具有潜在关系和不同信息的信息丰富且重要的特征。
  • 特征分析 :通过比较原始特征和生成特征的重要性,发现 AFER 构建的部分新特征比原始特征具有更高的相对重要性,说明该模型达到了预期目标。
  • 回归演示 :对相关特征对的回归拟合过程进行分析,结果显示预测特征挖掘了特征对的相关性,差异特征搜索了原始特征和预测特征之间的潜在变化。
5. 改进的过程挖掘算法

在工业机器人逐渐应用于智能制造领域的背景下,生产过程的透明度和产品质量控制存在问题。使用过程挖掘技术分析机器人生产过程中收集的日志信息是解决这些问题的一种方法。近年来,过程挖掘中的一致性检查发展迅速,但并非所有算法都适用于实际的智能制造场景。针对近年来提出的 Log Skeleton 算法在制造过程中不能准确表达过程模型的问题,提出了一种改进方案,并设计了基于该算法的改进一致性检查方案,使其更适合实际应用。
- 问题提出 :工业机器人在智能制造中的应用面临生产过程透明度和产品质量控制的问题,需要通过分析生产过程中的日志信息来解决。
- 改进方案 :对 Log Skeleton 算法进行改进,设计改进的一致性检查方案。
- 实验验证 :通过实验验证改进算法在实际制造环境中的性能,结果表明改进方案提高了 Log Skeleton 算法在实际生产环境中的应用价值。

AFER:用于机器人预测的自动化特征工程及改进的过程挖掘算法

6. 改进的 Log Skeleton 算法流程

改进的 Log Skeleton 算法主要围绕解决原算法在制造过程中不能准确表达过程模型的问题展开,其具体流程如下:

graph LR
    A[收集机器人生产日志信息] --> B[对日志信息进行预处理]
    B --> C[应用改进的 Log Skeleton 算法构建过程模型]
    C --> D[进行一致性检查]
    D --> E[根据检查结果优化过程模型]
  • 收集机器人生产日志信息 :在工业机器人的生产过程中,记录每一个操作步骤、时间戳、操作结果等信息,形成详细的日志记录。
  • 对日志信息进行预处理 :对收集到的日志信息进行清洗,去除噪声数据和错误记录;对数据进行标准化处理,统一数据格式和范围,以便后续分析。
  • 应用改进的 Log Skeleton 算法构建过程模型 :基于预处理后的日志信息,利用改进的 Log Skeleton 算法构建能够准确反映实际生产过程的模型。该算法在原算法基础上进行了优化,更能适应制造过程的复杂性。
  • 进行一致性检查 :将实际的生产日志与构建的过程模型进行对比,检查两者之间的一致性。通过分析差异,找出可能存在的问题,如流程违规、操作失误等。
  • 根据检查结果优化过程模型 :根据一致性检查的结果,对过程模型进行调整和优化。如果发现模型与实际生产过程存在较大偏差,需要重新调整算法参数或改进模型结构,以提高模型的准确性和适用性。
7. 改进算法的优势分析
  • 准确性提升 :原 Log Skeleton 算法在某些复杂的制造过程中可能无法准确表达过程模型,而改进后的算法通过优化模型结构和参数,能够更精确地捕捉生产过程中的各种关系和约束,从而提高了模型的准确性。
  • 适应性增强 :改进算法考虑了实际制造场景中的多样性和不确定性,能够更好地适应不同类型的生产过程和日志数据。无论是简单的流水线生产还是复杂的多工序协同生产,都能有效地构建和分析过程模型。
  • 应用价值提高 :通过实验验证,改进方案显著提高了 Log Skeleton 算法在实际生产环境中的应用价值。企业可以利用改进后的算法更准确地监控生产过程,及时发现和解决问题,从而提高生产效率和产品质量。
8. 总结与展望
  • AFER 算法总结 :AFER 算法通过使用弹性网络回归进行特征生成和选择,有效地解决了机器人预测中特征工程的问题。实验结果表明,该算法能够自动生成和选择大量具有潜在关系和不同信息的重要特征,提高了分类准确率。
  • 改进的 Log Skeleton 算法总结 :针对 Log Skeleton 算法在制造过程中的不足,提出的改进方案和一致性检查方案,经过实验验证,提高了算法在实际生产环境中的应用价值,有助于解决工业机器人生产过程中的透明度和质量控制问题。
  • 未来展望 :在未来的研究中,可以进一步探索 AFER 算法与强化学习的结合,以更好地应用于机器人预测和智能自动化领域。对于改进的 Log Skeleton 算法,可以继续优化算法性能,扩大其在不同制造场景中的应用范围,为智能制造的发展提供更有力的支持。
9. 对比分析

为了更直观地展示 AFER 算法和改进的 Log Skeleton 算法的优势,下面对它们与传统方法进行对比分析:
| 算法/方法 | 适用场景 | 主要优势 | 局限性 |
| — | — | — | — |
| AFER 算法 | 机器人预测 | 自动生成和选择特征,提高分类准确率,挖掘特征对潜在信息 | 需要一定的计算资源 |
| 改进的 Log Skeleton 算法 | 工业机器人生产过程分析 | 准确表达过程模型,提高生产透明度和质量控制 | 对日志数据质量要求较高 |
| 传统特征工程方法 | 通用数据处理 | 基于经验和规则,易于理解和实现 | 难以适应复杂数据集,效率较低 |
| 传统过程挖掘算法 | 一般业务流程分析 | 成熟的理论和方法 | 在复杂制造场景中准确性不足 |

通过以上对比可以看出,AFER 算法和改进的 Log Skeleton 算法在各自的应用场景中具有明显的优势,能够更好地满足实际需求。在实际应用中,可以根据具体问题和数据特点选择合适的算法,以达到最佳的效果。

先展示下效果 https://pan.quark.cn/s/a4b39357ea24 遗传算法 - 简书 遗传算法的理论是根据达尔文进化论而设计出来的算法: 人类是朝着好的方向(最优解)进化,进化过程中,会自动选择优良基因,淘汰劣等基因。 遗传算法(英语:genetic algorithm (GA) )是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。 进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择、杂交等。 搜索算法的共同特征为: 首先组成一组候选解 依据某些适应性条件测算这些候选解的适应度 根据适应度保留某些候选解,放弃其他候选解 对保留的候选解进行某些操作,生成新的候选解 遗传算法流程 遗传算法的一般步骤 my_fitness函数 评估每条染色体所对应个体的适应度 升序排列适应度评估值,选出 前 parent_number 个 个体作为 待选 parent 种群(适应度函数的值越小越好) 从 待选 parent 种群 中随机选择 2 个个体作为父方和母方。 抽取父母双方的染色体,进行交叉,产生 2 个子代。 (交叉概率) 对子代(parent + 生成的 child)的染色体进行变异。 (变异概率) 重复3,4,5步骤,直到新种群(parentnumber + childnumber)的产生。 循环以上步骤直至找到满意的解。 名词解释 交叉概率:两个个体进行交配的概率。 例如,交配概率为0.8,则80%的“夫妻”会生育后代。 变异概率:所有的基因中发生变异的占总体的比例。 GA函数 适应度函数 适应度函数由解决的问题决定。 举一个平方和的例子。 简单的平方和问题 求函数的最小值,其中每个变量的取值区间都是 [-1, ...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值