衡量和测试特征选择方法的稳定性两种方法理解

本文介绍了数据集二次抽样方法及其在交叉验证中的应用,详细阐述了如何通过特征选择生成加权基因序列,并计算重叠比例。重点在于通过多次特征选择来测试算法的稳定性和分类准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、样本扰动方法:对一个数据集进行二次抽样,首先从原始数据集中抽取80%相同的样本,然后将其余样本平均分配到两个数据集中。重复采样20次每次维持88.88%(从90%的原始数据集中抽取80%相同的样本,即(80/90)%)重叠比例,接下来计算经过特征选择之后生成的加权基因序列之间的相似性(即重叠比例) 。

2、交叉验证:是指将数据集分成多份或分成相同的(或者越接近越好)几份。前 n-1 份作为学习器的训练集,其中 n 是数据集所分份数,余下的那份则作为测试集。这个过程执行 n 次,因此每份样本子集都会作为测试集进行测试。交叉验证通常用于分类准确率的实验。为了测试算法的稳定性,需要在n-1 份数据集(或者训练集)上进行n次特征选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值