37、数据流式学习中批量增量与实例增量方法对比及条件随机场分段近似训练研究

数据流式学习中批量增量与实例增量方法对比及条件随机场分段近似训练研究

数据流式学习方法概述

在数据流式学习领域,有两种重要的分类方法分支:批量增量和实例增量方法。研究中对比了使用强大批量分类器(支持向量机、C4.5决策树、逻辑回归)的批量增量方法(采用最近的加权精度集成方法)与实例增量方法(朴素贝叶斯、霍夫丁树集成、随机梯度下降和k近邻变体)的性能。

以下是所考虑的方法及其参数:
| 关键 | 分类器 | 参数 |
| — | — | — |
| NB | 朴素贝叶斯 | 无 |
| SGD | 随机梯度下降 | 无 |
| HT | 霍夫丁树 | 无 |
| LB - HT | 杠杆装袋/霍夫丁树 | n = 10 |
| kNN | k近邻 | w = 1000, k = 10 |
| LB - kNN | 杠杆装袋/k近邻 | n = 10 |
| AWE - SMO | 支持向量机的加权精度集成 | w = 500, n = 10 |
| AWE - J48 | C4.5决策树的加权精度集成 | w = 500, n = 10 |
| AWE - LR | 逻辑回归的加权精度集成 | w = 500, n = 10 |

k近邻算法因其实例增量的性质,自然适用于数据流设置。改进的搜索和实例压缩技术已被证明能显著提高其性能。而应对概念漂移是数据流学习的基本部分,k近邻和批量增量方法会自然淘汰旧数据和旧概念,但像霍夫丁树这样的实例增量模型需要明确的变化检测,否则会在旧概念上学习新概念。ADWIN可以与任何需要明确变化检测的方法结合使用,例如已成功应用于霍夫丁树。

实验设置与方法
  • 数据来源
    • 合成数据 :具有易于重现、存储和传输成本低的优点。使用了常见的合成数据生成器,如SEA概念生成器、旋转超平面、随机RBF生成器和LED生成器。
    • 真实数据 :考虑了UCI存储库中的三个大型数据集(森林覆盖类型、扑克手牌、电力),以及两个文本数据集(20个新闻组、IMDB)。由于真实数据集相对较小且不知道漂移发生情况,对其进行了概念漂移模拟。
  • 实验方法
    • 实验在2.66 GHz Core 2 Duo E6750机器上进行,使用4 GB内存。采用交错测试 - 训练评估方法,每个示例在用于训练模型之前先用于测试。
    • 从合成概念中生成100万个示例,使用Nemenyi测试计算显著性,p值设为0.05。引入RAM - 小时作为流算法资源使用的评估指标。
  • 参数选择
    对k近邻和AWE - 方法的不同窗口大小参数的影响进行了分析。结果表明,k近邻选择w = 1000,AWE - 方法选择w = 500较为合适。虽然w = 5000对k近邻的准确性略有提高,但计算成本过高。而对于每个流,最佳的w值是不同的,例如AWE - J48在不同数据集上没有明确的最优值。

以下是不同窗口大小下k近邻和AWE - 方法的平均准确率、总时间和RAM - 小时:
| 窗口大小 | kNN平均准确率 | AWE - J48平均准确率 | AWE - LR平均准确率 | AWE - SMO平均准确率 |
| — | — | — | — | — |
| - w 100 | 66.32 | 70.72 | 68.77 | 67.13 |
| - w 500 | 80.24 | 77.36 | 69.62 | 70.77 |
| - w 1000 | 82.33 | 76.90 | 67.83 | 70.07 |
| - w 5000 | 82.63 | 73.76 | 65.56 | 67.67 |

窗口大小 kNN总时间(秒) AWE - J48总时间(秒) AWE - LR总时间(秒) AWE - SMO总时间(秒)
- w 100 2180 3809 9659 13860
- w 500 9993 6883 66757 5800
- w 1000 18349 10865 10247 6414
- w 5000 71540 28429 10112 39298
窗口大小 kNN RAM - 小时 AWE - J48 RAM - 小时 AWE - LR RAM - 小时 AWE - SMO RAM - 小时
- w 100 0.13 1.96 12.65 3.19
- w 500 1.11 8.49 48.07 4.12
- w 1000 2.98 21.81 22.47 9.36
- w 5000 41.27 221.66 67.52 255.96

下面是AWE - J48在不同数据集上不同窗口大小的准确率:
| 数据集 | - w 100 | - w 500 | - w 1000 | - w 5000 |
| — | — | — | — | — |
| 20 Newsgroups | 94.30 | 94.74 | 95.06 | 94.60 |
| IMDB | 55.09 | 53.59 | 53.54 | 54.33 |
| CovType | 55.79 | 87.82 | 85.58 | 76.05 |
| Electricity | 78.47 | 75.27 | 74.37 | 65.10 |
| Poker | 76.06 | 77.89 | 79.32 | 75.98 |
| CovPokElec | 68.03 | 81.60 | 81.45 | 74.32 |
| LED(50000) | 70.60 | 71.99 | 72.03 | 71.37 |
| SEA(50) | 84.95 | 88.03 | 88.56 | 88.68 |
| SEA(50000) | 84.63 | 87.71 | 88.16 | 88.43 |
| HYP(10,0.0001) | 66.69 | 71.58 | 73.41 | 78.63 |
| HYP(10,0.001) | 70.95 | 75.79 | 77.69 | 79.94 |
| RBF(0,0) | 69.42 | 83.01 | 84.96 | 87.38 |
| RBF(50,0.0001) | 69.12 | 79.30 | 77.05 | 60.75 |
| RBF(10,0.0001) | 68.49 | 81.79 | 82.78 | 80.79 |
| RBF(50,0.001) | 53.78 | 50.95 | 38.55 | 24.50 |
| RBF(10,0.001) | 65.18 | 76.76 | 77.92 | 79.36 |
| 平均 | 70.72 | 77.36 | 76.90 | 73.76 |

条件随机场分段近似训练

条件随机场(CRF)模型为涉及多个相互依赖输出变量的结构化分类任务提供了灵活的框架。通常使用最大似然准则或基于边缘的方法进行训练。在这项工作中,考虑使用柯林斯提出的结构化感知机算法进行CRF训练。

提出可以从萨顿和麦卡勒姆提出的分段近似方法中受益。在分段训练中,将对应于训练实例的原始图拆分为更小且可能重叠的子图(片段),并在这些小子图上进行图推理,而不是在可能大得多的原始图上进行。训练后,使用估计的模型参数在对应于测试实例的完整图上进行图推理,以利用输出变量之间的依赖结构。

使用分段近似方法的动机有两个方面:一是在子图上进行推理的计算成本低于在较大的原始图上,因此在训练时间受推理时间支配的情况下,拆分操作有望加快训练速度;二是在模型估计过程中应用分段方法可能不仅能节省训练时间,还能通过增加模型正则化来提高模型在测试集上的性能。

以下是条件随机场分段近似训练的流程:

graph TD;
    A[开始] --> B[准备训练实例和原始图];
    B --> C[将原始图拆分为子图];
    C --> D[在子图上进行图推理和模型训练];
    D --> E[完成训练,得到模型参数];
    E --> F[准备测试实例和完整图];
    F --> G[使用模型参数在完整图上进行图推理];
    G --> H[输出测试结果];
    H --> I[结束];

通过在CoNLL - 2000语料库上的名词短语分块任务实验,结果表明了分段近似方法在CRF训练中的优势。

数据流式学习中批量增量与实例增量方法对比及条件随机场分段近似训练研究

数据流式学习实验结果分析

实验对比了多种方法的准确性、时间和RAM - 小时,具体结果如下:
| 方法 | 20 Newsgroups | IMDB | CovType | Electricity | Poker | CovPokElec | LED(50000) | SEA(50) | SEA(50000) | HYP(10,0.0001) | HYP(10,0.001) | RBF(0,0) | RBF(50,0.0001) | RBF(10,0.0001) | RBF(50,0.001) | RBF(10,0.001) | 平均 |
| — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — |
| NB | 68.13 | 60.42 | 60.52 | 73.36 | 59.55 | 24.24 | 54.02 | 85.37 | 85.38 | 91.25 | 70.91 | 51.21 | 30.99 | 52.10 | 29.14 | 51.96 | 59.29 |
| kNN | 94.86 | 60.82 | 92.22 | 78.38 | 69.35 | 78.41 | 63.20 | 86.80 | 86.55 | 83.29 | 83.33 | 88.99 | 89.36 | 89.30 | 84.03 | 88.34 | 82.33 |
| HT | 94.30 | 63.51 | 80.31 | 79.20 | 76.07 | 79.34 | 68.65 | 86.42 | 86.42 | 89.04 | 78.77 | 83.25 | 45.49 | 79.24 | 32.29 | 76.39 | 74.92 |
| AWE - J48 | 94.74 | 53.59 | 87.82 | 75.27 | 77.89 | 81.60 | 71.99 | 88.03 | 87.71 | 71.58 | 75.79 | 83.01 | 79.30 | 81.79 | 50.95 | 76.76 | 77.36 |
| LB - HT | 94.38 | 61.76 | 88.61 | 88.77 | 94.97 | 92.41 | 73.15 | 88.24 | 88.80 | 88.06 | 84.85 | 89.70 | 76.70 | 85.54 | 55.72 | 81.82 | 83.34 |
| SGD | 94.86 | 63.79 | 60.70 | 57.58 | 68.92 | 68.06 | 11.84 | 85.41 | 85.21 | 79.54 | 71.10 | 16.63 | 16.63 | 16.63 | 16.63 | 16.63 | 51.89 |
| AWE - LR | 88.43 | 53.96 | 84.50 | 70.55 | 60.90 | 70.07 | 73.03 | 89.44 | 89.01 | 93.73 | 91.75 | 46.91 | 54.89 | 50.96 | 46.48 | 49.37 | 69.62 |
| AWE - SMO | 95.56 | 54.52 | 84.24 | 68.56 | 60.38 | 69.77 | 72.80 | 89.57 | 89.15 | 93.41 | 92.02 | 50.52 | 57.85 | 52.80 | 50.42 | 50.74 | 70.77 |
| LB - kNN | DNF | 62.44 | 92.39 | 80.78 | 70.34 | 79.09 | 69.77 | 88.00 | 87.74 | 87.10 | 86.91 | 90.59 | 90.49 | 90.73 | 82.10 | 88.93 | 83.16 |

从准确性来看:
- 朴素贝叶斯(NB)在大多数数据集上的准确性相对较低,这表明要学习的概念是比较难的问题。
- k近邻(kNN)方法在所有数据源上表现都很好,即使作为独立方法,它也是整体表现最好的方法之一。kNN仅使用1000个实例的内部缓冲区就能很好地建模概念,在不断变化的数据上表现最佳。
- 霍夫丁树(HT)通常比NB更适合实例增量方法。与批量设置下的非增量决策树(AWE - J48)相比,在某些数据集上AWE - J48表现更好,但在IMDB和电力数据集上,HT更优。这两个真实世界数据集没有明显的突然概念漂移,说明批量方法在一定程度上能自动处理概念漂移。
- 在现代自适应装袋方案(LB - HT)下,霍夫丁树很强大,但在许多情况下会增加计算成本,特别是在RAM - 小时方面。

时间和RAM - 小时方面:
- kNN的时间成本可能较高,LB - kNN是运行成本最高的方法之一,但可以通过不同的搜索技术来缓解。
- AWE - LR在许多数据集上运行非常缓慢。

以下是各方法的总时间(秒)和总RAM - 小时(MB):
| 方法 | 总时间(秒) | 总RAM - 小时(MB) |
| — | — | — |
| NB | 260.28 | 0.02 |
| kNN | 18348.95 | 2.98 |
| HT | 416.53 | 4.15 |
| AWE - J48 | 6883.14 | 8.49 |
| LB - HT | 9877.38 | 391.16 |
| SGD | 41.82 | 0.00 |
| AWE - LR | 66757.02 | 48.07 |
| AWE - SMO | 5799.90 | 4.12 |
| LB - kNN | 166311.91 | 77.90 |

总结与启示

通过对数据流式学习中批量增量与实例增量方法的对比以及条件随机场分段近似训练的研究,可以得到以下重要结论:
- 数据流式学习
- 实例增量方法在使用较少资源的情况下,性能与等效的批量学习实现相似。
- 对于不能自动丢弃旧信息的学习器,明确的漂移检测和适应机制至关重要。
- 懒惰方法(如kNN)仅使用1000个最近实例的缓冲区就能表现出色,甚至优于强大的增量方法。
- 最佳批量大小取决于所考虑的数据流,某些批量方法在特定问题上表现出色,但懒惰学习器使用较少资源就能提供相似或更好的分类性能。
- 条件随机场分段近似训练
- 分段近似方法可以加快条件随机场使用结构化感知机算法的训练速度,特别是在训练时间受推理时间支配的情况下。
- 在模型估计过程中应用分段方法可能不仅能节省训练时间,还能通过增加模型正则化来提高模型在测试集上的性能。

这些结论对于数据流式学习和条件随机场训练具有重要的指导意义,为相关领域的研究和应用提供了有价值的参考。在实际应用中,可以根据具体的数据集特点和任务需求,选择合适的方法和参数,以达到最佳的性能和效率。

【永磁同步电机】基于模型预测控制MPC的永磁同步电机非线性终端滑模控制仿真研究(Simulink&Matlab代码实现)内容概要:本文围绕永磁同步电机(PMSM)的高性能控制展开,提出了一种结合模型预测控制(MPC)非线性终端滑模控制(NTSMC)的先进控制策略,并通过SimulinkMatlab进行系统建模仿真验证。该方法旨在克服传统控制中动态响应慢、鲁棒性不足等问题,利用MPC的多步预测和滚动优化能力,结合NTSMC的强鲁棒性和有限时间收敛特性,实现对电机转速和电流的高精度、快速响应控制。文中详细阐述了系统数学模型构建、控制器设计流程、参数整定方法及仿真结果分析,展示了该复合控制策略在抗干扰能力和动态性能方面的优越性。; 适合人群:具备自动控制理论、电机控制基础知识及一定Matlab/Simulink仿真能力的电气工程、自动化等相关专业的研究生、科研人员及从事电机驱动系统开发的工程师。; 使用场景及目标:①用于深入理解模型预测控制滑模控制在电机系统中的融合应用;②为永磁同步电机高性能控制系统的仿真研究实际设计提供可复现的技术方案代码参考;③支撑科研论文复现、课题研究或工程项目前期验证。; 阅读建议:建议读者结合提供的Simulink模型Matlab代码,逐步调试仿真环境,重点分析控制器设计逻辑参数敏感性,同时可尝试在此基础上引入外部扰动或参数变化以进一步验证控制鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值