数据流式学习中批量增量与实例增量方法对比及条件随机场分段近似训练研究
数据流式学习方法概述
在数据流式学习领域,有两种重要的分类方法分支:批量增量和实例增量方法。研究中对比了使用强大批量分类器(支持向量机、C4.5决策树、逻辑回归)的批量增量方法(采用最近的加权精度集成方法)与实例增量方法(朴素贝叶斯、霍夫丁树集成、随机梯度下降和k近邻变体)的性能。
以下是所考虑的方法及其参数:
| 关键 | 分类器 | 参数 |
| — | — | — |
| NB | 朴素贝叶斯 | 无 |
| SGD | 随机梯度下降 | 无 |
| HT | 霍夫丁树 | 无 |
| LB - HT | 杠杆装袋/霍夫丁树 | n = 10 |
| kNN | k近邻 | w = 1000, k = 10 |
| LB - kNN | 杠杆装袋/k近邻 | n = 10 |
| AWE - SMO | 支持向量机的加权精度集成 | w = 500, n = 10 |
| AWE - J48 | C4.5决策树的加权精度集成 | w = 500, n = 10 |
| AWE - LR | 逻辑回归的加权精度集成 | w = 500, n = 10 |
k近邻算法因其实例增量的性质,自然适用于数据流设置。改进的搜索和实例压缩技术已被证明能显著提高其性能。而应对概念漂移是数据流学习的基本部分,k近邻和批量增量方法会自然淘汰旧数据和旧概念,但像霍夫丁树这样的实例增量模型需要明确的变化检测,否则会在旧概念上学习新概念。ADWIN可以与任何需要明确变化检测的方法结合使用,例如已成功应用于霍夫丁树。
实验设置与方法
-
数据来源
- 合成数据 :具有易于重现、存储和传输成本低的优点。使用了常见的合成数据生成器,如SEA概念生成器、旋转超平面、随机RBF生成器和LED生成器。
- 真实数据 :考虑了UCI存储库中的三个大型数据集(森林覆盖类型、扑克手牌、电力),以及两个文本数据集(20个新闻组、IMDB)。由于真实数据集相对较小且不知道漂移发生情况,对其进行了概念漂移模拟。
-
实验方法
- 实验在2.66 GHz Core 2 Duo E6750机器上进行,使用4 GB内存。采用交错测试 - 训练评估方法,每个示例在用于训练模型之前先用于测试。
- 从合成概念中生成100万个示例,使用Nemenyi测试计算显著性,p值设为0.05。引入RAM - 小时作为流算法资源使用的评估指标。
-
参数选择
对k近邻和AWE - 方法的不同窗口大小参数的影响进行了分析。结果表明,k近邻选择w = 1000,AWE - 方法选择w = 500较为合适。虽然w = 5000对k近邻的准确性略有提高,但计算成本过高。而对于每个流,最佳的w值是不同的,例如AWE - J48在不同数据集上没有明确的最优值。
以下是不同窗口大小下k近邻和AWE - 方法的平均准确率、总时间和RAM - 小时:
| 窗口大小 | kNN平均准确率 | AWE - J48平均准确率 | AWE - LR平均准确率 | AWE - SMO平均准确率 |
| — | — | — | — | — |
| - w 100 | 66.32 | 70.72 | 68.77 | 67.13 |
| - w 500 | 80.24 | 77.36 | 69.62 | 70.77 |
| - w 1000 | 82.33 | 76.90 | 67.83 | 70.07 |
| - w 5000 | 82.63 | 73.76 | 65.56 | 67.67 |
| 窗口大小 | kNN总时间(秒) | AWE - J48总时间(秒) | AWE - LR总时间(秒) | AWE - SMO总时间(秒) |
|---|---|---|---|---|
| - w 100 | 2180 | 3809 | 9659 | 13860 |
| - w 500 | 9993 | 6883 | 66757 | 5800 |
| - w 1000 | 18349 | 10865 | 10247 | 6414 |
| - w 5000 | 71540 | 28429 | 10112 | 39298 |
| 窗口大小 | kNN RAM - 小时 | AWE - J48 RAM - 小时 | AWE - LR RAM - 小时 | AWE - SMO RAM - 小时 |
|---|---|---|---|---|
| - w 100 | 0.13 | 1.96 | 12.65 | 3.19 |
| - w 500 | 1.11 | 8.49 | 48.07 | 4.12 |
| - w 1000 | 2.98 | 21.81 | 22.47 | 9.36 |
| - w 5000 | 41.27 | 221.66 | 67.52 | 255.96 |
下面是AWE - J48在不同数据集上不同窗口大小的准确率:
| 数据集 | - w 100 | - w 500 | - w 1000 | - w 5000 |
| — | — | — | — | — |
| 20 Newsgroups | 94.30 | 94.74 | 95.06 | 94.60 |
| IMDB | 55.09 | 53.59 | 53.54 | 54.33 |
| CovType | 55.79 | 87.82 | 85.58 | 76.05 |
| Electricity | 78.47 | 75.27 | 74.37 | 65.10 |
| Poker | 76.06 | 77.89 | 79.32 | 75.98 |
| CovPokElec | 68.03 | 81.60 | 81.45 | 74.32 |
| LED(50000) | 70.60 | 71.99 | 72.03 | 71.37 |
| SEA(50) | 84.95 | 88.03 | 88.56 | 88.68 |
| SEA(50000) | 84.63 | 87.71 | 88.16 | 88.43 |
| HYP(10,0.0001) | 66.69 | 71.58 | 73.41 | 78.63 |
| HYP(10,0.001) | 70.95 | 75.79 | 77.69 | 79.94 |
| RBF(0,0) | 69.42 | 83.01 | 84.96 | 87.38 |
| RBF(50,0.0001) | 69.12 | 79.30 | 77.05 | 60.75 |
| RBF(10,0.0001) | 68.49 | 81.79 | 82.78 | 80.79 |
| RBF(50,0.001) | 53.78 | 50.95 | 38.55 | 24.50 |
| RBF(10,0.001) | 65.18 | 76.76 | 77.92 | 79.36 |
| 平均 | 70.72 | 77.36 | 76.90 | 73.76 |
条件随机场分段近似训练
条件随机场(CRF)模型为涉及多个相互依赖输出变量的结构化分类任务提供了灵活的框架。通常使用最大似然准则或基于边缘的方法进行训练。在这项工作中,考虑使用柯林斯提出的结构化感知机算法进行CRF训练。
提出可以从萨顿和麦卡勒姆提出的分段近似方法中受益。在分段训练中,将对应于训练实例的原始图拆分为更小且可能重叠的子图(片段),并在这些小子图上进行图推理,而不是在可能大得多的原始图上进行。训练后,使用估计的模型参数在对应于测试实例的完整图上进行图推理,以利用输出变量之间的依赖结构。
使用分段近似方法的动机有两个方面:一是在子图上进行推理的计算成本低于在较大的原始图上,因此在训练时间受推理时间支配的情况下,拆分操作有望加快训练速度;二是在模型估计过程中应用分段方法可能不仅能节省训练时间,还能通过增加模型正则化来提高模型在测试集上的性能。
以下是条件随机场分段近似训练的流程:
graph TD;
A[开始] --> B[准备训练实例和原始图];
B --> C[将原始图拆分为子图];
C --> D[在子图上进行图推理和模型训练];
D --> E[完成训练,得到模型参数];
E --> F[准备测试实例和完整图];
F --> G[使用模型参数在完整图上进行图推理];
G --> H[输出测试结果];
H --> I[结束];
通过在CoNLL - 2000语料库上的名词短语分块任务实验,结果表明了分段近似方法在CRF训练中的优势。
数据流式学习中批量增量与实例增量方法对比及条件随机场分段近似训练研究
数据流式学习实验结果分析
实验对比了多种方法的准确性、时间和RAM - 小时,具体结果如下:
| 方法 | 20 Newsgroups | IMDB | CovType | Electricity | Poker | CovPokElec | LED(50000) | SEA(50) | SEA(50000) | HYP(10,0.0001) | HYP(10,0.001) | RBF(0,0) | RBF(50,0.0001) | RBF(10,0.0001) | RBF(50,0.001) | RBF(10,0.001) | 平均 |
| — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — |
| NB | 68.13 | 60.42 | 60.52 | 73.36 | 59.55 | 24.24 | 54.02 | 85.37 | 85.38 | 91.25 | 70.91 | 51.21 | 30.99 | 52.10 | 29.14 | 51.96 | 59.29 |
| kNN | 94.86 | 60.82 | 92.22 | 78.38 | 69.35 | 78.41 | 63.20 | 86.80 | 86.55 | 83.29 | 83.33 | 88.99 | 89.36 | 89.30 | 84.03 | 88.34 | 82.33 |
| HT | 94.30 | 63.51 | 80.31 | 79.20 | 76.07 | 79.34 | 68.65 | 86.42 | 86.42 | 89.04 | 78.77 | 83.25 | 45.49 | 79.24 | 32.29 | 76.39 | 74.92 |
| AWE - J48 | 94.74 | 53.59 | 87.82 | 75.27 | 77.89 | 81.60 | 71.99 | 88.03 | 87.71 | 71.58 | 75.79 | 83.01 | 79.30 | 81.79 | 50.95 | 76.76 | 77.36 |
| LB - HT | 94.38 | 61.76 | 88.61 | 88.77 | 94.97 | 92.41 | 73.15 | 88.24 | 88.80 | 88.06 | 84.85 | 89.70 | 76.70 | 85.54 | 55.72 | 81.82 | 83.34 |
| SGD | 94.86 | 63.79 | 60.70 | 57.58 | 68.92 | 68.06 | 11.84 | 85.41 | 85.21 | 79.54 | 71.10 | 16.63 | 16.63 | 16.63 | 16.63 | 16.63 | 51.89 |
| AWE - LR | 88.43 | 53.96 | 84.50 | 70.55 | 60.90 | 70.07 | 73.03 | 89.44 | 89.01 | 93.73 | 91.75 | 46.91 | 54.89 | 50.96 | 46.48 | 49.37 | 69.62 |
| AWE - SMO | 95.56 | 54.52 | 84.24 | 68.56 | 60.38 | 69.77 | 72.80 | 89.57 | 89.15 | 93.41 | 92.02 | 50.52 | 57.85 | 52.80 | 50.42 | 50.74 | 70.77 |
| LB - kNN | DNF | 62.44 | 92.39 | 80.78 | 70.34 | 79.09 | 69.77 | 88.00 | 87.74 | 87.10 | 86.91 | 90.59 | 90.49 | 90.73 | 82.10 | 88.93 | 83.16 |
从准确性来看:
- 朴素贝叶斯(NB)在大多数数据集上的准确性相对较低,这表明要学习的概念是比较难的问题。
- k近邻(kNN)方法在所有数据源上表现都很好,即使作为独立方法,它也是整体表现最好的方法之一。kNN仅使用1000个实例的内部缓冲区就能很好地建模概念,在不断变化的数据上表现最佳。
- 霍夫丁树(HT)通常比NB更适合实例增量方法。与批量设置下的非增量决策树(AWE - J48)相比,在某些数据集上AWE - J48表现更好,但在IMDB和电力数据集上,HT更优。这两个真实世界数据集没有明显的突然概念漂移,说明批量方法在一定程度上能自动处理概念漂移。
- 在现代自适应装袋方案(LB - HT)下,霍夫丁树很强大,但在许多情况下会增加计算成本,特别是在RAM - 小时方面。
时间和RAM - 小时方面:
- kNN的时间成本可能较高,LB - kNN是运行成本最高的方法之一,但可以通过不同的搜索技术来缓解。
- AWE - LR在许多数据集上运行非常缓慢。
以下是各方法的总时间(秒)和总RAM - 小时(MB):
| 方法 | 总时间(秒) | 总RAM - 小时(MB) |
| — | — | — |
| NB | 260.28 | 0.02 |
| kNN | 18348.95 | 2.98 |
| HT | 416.53 | 4.15 |
| AWE - J48 | 6883.14 | 8.49 |
| LB - HT | 9877.38 | 391.16 |
| SGD | 41.82 | 0.00 |
| AWE - LR | 66757.02 | 48.07 |
| AWE - SMO | 5799.90 | 4.12 |
| LB - kNN | 166311.91 | 77.90 |
总结与启示
通过对数据流式学习中批量增量与实例增量方法的对比以及条件随机场分段近似训练的研究,可以得到以下重要结论:
-
数据流式学习
- 实例增量方法在使用较少资源的情况下,性能与等效的批量学习实现相似。
- 对于不能自动丢弃旧信息的学习器,明确的漂移检测和适应机制至关重要。
- 懒惰方法(如kNN)仅使用1000个最近实例的缓冲区就能表现出色,甚至优于强大的增量方法。
- 最佳批量大小取决于所考虑的数据流,某些批量方法在特定问题上表现出色,但懒惰学习器使用较少资源就能提供相似或更好的分类性能。
-
条件随机场分段近似训练
- 分段近似方法可以加快条件随机场使用结构化感知机算法的训练速度,特别是在训练时间受推理时间支配的情况下。
- 在模型估计过程中应用分段方法可能不仅能节省训练时间,还能通过增加模型正则化来提高模型在测试集上的性能。
这些结论对于数据流式学习和条件随机场训练具有重要的指导意义,为相关领域的研究和应用提供了有价值的参考。在实际应用中,可以根据具体的数据集特点和任务需求,选择合适的方法和参数,以达到最佳的性能和效率。
超级会员免费看
20

被折叠的 条评论
为什么被折叠?



