11、机器学习与数据选择相关研究

最新推荐文章于 2025-11-24 14:29:42 发布

wasm7browser

最新推荐文章于 2025-11-24 14:29:42 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：模式识别前沿探析文章标签：机器学习数据选择分类器实验

本文链接：https://blog.youkuaiyun.com/wasm7browser/article/details/151004462

模式识别前沿探析专栏收录该内容

63 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习与数据选择相关研究

在机器学习领域，特征向量表示和数据选择是两个重要的研究方向，对提升分类性能和训练效率有着关键作用。下面将详细介绍相关的实验研究和方法。

1. 分类器实验

在分类器实验中，采用了 10 折交叉验证的方法。具体操作如下：
- 对于每种表示类型，通过第二次内部 10 折交叉验证在训练集上确定最佳超参数（k 的最优值），k 的取值范围为{5, 10, 25, 50, 100}。
- 报告了两种分类器在每种表示类型下使用最佳参数时的 AUC 性能，同时列出了传统 MIL 分类器的最佳性能作为参考。表现较好的分类器有 MILES、MI - SVM、EM - DD、基于包摘要表示训练的逻辑分类器以及 p - 后验分类器。

实验结果表明：
- 当相异矩阵较小时，频谱表示更优。
- 当有较大的训练集时，均衡直方图是不错的选择。由于这些直方图往往是高维的，所以分类器不宜过于复杂，线性分类器是个好的选择。
- 令人惊讶的是，尽管这些表示方法去除了特征空间中实例的绝对位置，但仍能取得相当不错的分类性能。对于一些数据集，分类性能超过了目前已达到的最佳性能，或者与之相当。而对于包含特定概念的数据集，能够访问单个特征向量的分类器表现更好。

以下是部分数据集上不同分类器和表示类型的 AUC 性能表格：
|数据集|分类器|表示类型|AUC 均值 (标准差) ×100 %|
| ---- | ---- | ---- | ---- |
|Musk 1|MI - SVM|spect 25D|74.2 (18.7)|
|Musk 1|MI - SVM|spect 10D|53.5 (2

会员秒杀 ¥9.9 重磅福利

超级会员免费看