基于上下文价值和相关性启发式的集成特征选择与交互式约束序列模式挖掘
集成特征选择
在机器学习中,构建分类器集成是创建一组多样化且准确的基础分类器的有效方法。特征选择技术与其他技术一起,用于为基础分类器的构建准备训练集。这里分析了两种特征选择启发式方法:基于上下文价值(CM - based)和基于相关性(correlation - based)的方法。
这两种方法都基于对异构分类问题的相似假设。构建的集成中基础分类器的数量与类别数量相同,每个基础分类器由 C4.5 算法生成,用于区分一个类别的实例与其他类别的实例。每个分类器基于特征子集,这些特征通过 CM 或相关性的价值来选择。
为了优化集成的特性,在最终的集成生成过程中应用了迭代优化。迭代优化循环提供反馈,在考虑全局准确性的同时,促进生成更多样化的基础分类器集合。
在 UCI 机器学习库的多个数据集上进行了评估,实验结果如下:
| 比较内容 | 结果 |
| — | — |
| 准确性 | CM 方法通常在准确性上优于相关性方法 |
| 分类器多样性 | 相关性方法在大多数情况下生成更多样化的分类器 |
| 迭代效果 | 迭代对 CM 方法的影响通常更大,最终使多样性差异变小 |
| 基础分类器复杂度 | 相关性方法使用较少的特征,生成的基础分类器更简单 |
| 迭代对多样性的提升 | 迭代优化循环对 CM 方法增加多样性更有效 |
此外,还将基于启发式的集成与 C4.5 学习算法进行了比较:
- 基于启发式的集成在构建分类器时使用的特征数量要少得多。
- t 检验表明,对于 Car 和 Wavefo
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



