分类问题中的集成方法与功能聚类
1. 分类问题中的集成方法
1.1 数据集与实验设置
在分类问题的研究中,涉及到多种不同类型的数据集,涵盖了图像识别(如电离层、声纳)、医学诊断(如乳腺癌、糖尿病)、商品交易(如汽车、信用评估)、音乐创作(如波形)、计算机游戏(如国际象棋残局、僧侣问题)、各种控制应用(如平衡问题)、语言形态分析(如词的缩小形式)以及学生辍学预测等领域。
为了计算分类器的准确性,将整个训练集划分为十个互不相交且大小相等的子集。对于每个子集,分类器在其他所有子集的并集上进行训练。然后,对每个算法进行 10 次交叉验证,并计算 10 次交叉验证的平均值。
在结果表示中,用“*”表示特定集成方法比基分类器差,即根据 t 检验(p < 0.01),特定算法在统计上比特定集成方法表现更好;用“v”表示基分类器比特定集成方法差,同样基于 t 检验(p < 0.01)。在其他情况下,结果之间没有显著的统计差异(平局)。结论基于 p < 0.01 的结果差异,因为当在众多数据集上比较多个分类器时,p 值为 0.05 不够严格。
1.2 分类器数量与时间复杂度
对于装袋(Bagging)、提升(Boosting)和 Dagging 方法,大部分误差减少似乎在 10 到 15 个分类器之后出现。但 AdaBoosting 直到大约 25 个分类器时仍能显著改善测试集误差。因此,实验中使用 25 个子分类器。
所提出的集成方法的时间复杂度与使用 25 个子分类器的简单装袋、提升和 Dagging 方法大致相同。这是因为每个子集成使用 8 个子分类器(总共 24 个)。此外,该集成方法
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



