11、机器学习与数据选择相关研究

机器学习与数据选择相关研究

在机器学习领域,特征向量表示和数据选择是两个重要的研究方向,对提升分类性能和训练效率有着关键作用。下面将详细介绍相关的实验研究和方法。

1. 分类器实验

在分类器实验中,采用了 10 折交叉验证的方法。具体操作如下:
- 对于每种表示类型,通过第二次内部 10 折交叉验证在训练集上确定最佳超参数(k 的最优值),k 的取值范围为{5, 10, 25, 50, 100}。
- 报告了两种分类器在每种表示类型下使用最佳参数时的 AUC 性能,同时列出了传统 MIL 分类器的最佳性能作为参考。表现较好的分类器有 MILES、MI - SVM、EM - DD、基于包摘要表示训练的逻辑分类器以及 p - 后验分类器。

实验结果表明:
- 当相异矩阵较小时,频谱表示更优。
- 当有较大的训练集时,均衡直方图是不错的选择。由于这些直方图往往是高维的,所以分类器不宜过于复杂,线性分类器是个好的选择。
- 令人惊讶的是,尽管这些表示方法去除了特征空间中实例的绝对位置,但仍能取得相当不错的分类性能。对于一些数据集,分类性能超过了目前已达到的最佳性能,或者与之相当。而对于包含特定概念的数据集,能够访问单个特征向量的分类器表现更好。

以下是部分数据集上不同分类器和表示类型的 AUC 性能表格:
|数据集|分类器|表示类型|AUC 均值 (标准差) ×100 %|
| ---- | ---- | ---- | ---- |
|Musk 1|MI - SVM|spect 25D|74.2 (18.7)|
|Musk 1|MI - SVM|spect 10D|53.5 (2

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值