机器学习与数据选择相关研究
在机器学习领域,特征向量表示和数据选择是两个重要的研究方向,对提升分类性能和训练效率有着关键作用。下面将详细介绍相关的实验研究和方法。
1. 分类器实验
在分类器实验中,采用了 10 折交叉验证的方法。具体操作如下:
- 对于每种表示类型,通过第二次内部 10 折交叉验证在训练集上确定最佳超参数(k 的最优值),k 的取值范围为{5, 10, 25, 50, 100}。
- 报告了两种分类器在每种表示类型下使用最佳参数时的 AUC 性能,同时列出了传统 MIL 分类器的最佳性能作为参考。表现较好的分类器有 MILES、MI - SVM、EM - DD、基于包摘要表示训练的逻辑分类器以及 p - 后验分类器。
实验结果表明:
- 当相异矩阵较小时,频谱表示更优。
- 当有较大的训练集时,均衡直方图是不错的选择。由于这些直方图往往是高维的,所以分类器不宜过于复杂,线性分类器是个好的选择。
- 令人惊讶的是,尽管这些表示方法去除了特征空间中实例的绝对位置,但仍能取得相当不错的分类性能。对于一些数据集,分类性能超过了目前已达到的最佳性能,或者与之相当。而对于包含特定概念的数据集,能够访问单个特征向量的分类器表现更好。
以下是部分数据集上不同分类器和表示类型的 AUC 性能表格:
|数据集|分类器|表示类型|AUC 均值 (标准差) ×100 %|
| ---- | ---- | ---- | ---- |
|Musk 1|MI - SVM|spect 25D|74.2 (18.7)|
|Musk 1|MI - SVM|spect 10D|53.5 (2
超级会员免费看
订阅专栏 解锁全文
2001

被折叠的 条评论
为什么被折叠?



