特征选择与RNA世界模型研究
1. 特征选择在基因分类中的应用与结果分析
1.1 随机森林与Boruta算法的特征选择流程
在基因分类研究中,随机森林算法是一种有效的分类工具。每个决策树会对对象类别进行投票,最终决策为获得票数最多的类别。袋外(OOB)误差是分类准确性的可靠估计,通过仅使用训练集中未包含给定对象的树来测量每个对象的误分类率得到。同时,随机森林还能根据特定属性信息归零导致的估计准确性损失来评估变量的重要性。
Boruta算法利用随机森林提供的重要性度量,通过多次随机森林运行得到的重要性得分,进行描述性变量与随机人工对比变量重要性的统计检验,以找出与决策非随机相关的所有变量。
为了提高和稳定结果,机器学习工作流程被纳入装袋方案。具体操作步骤如下:
1. 将数据集划分为训练集和测试集。
2. 在训练集上运行Boruta算法,并存储找到的重要属性。
3. 在缩减为重要属性的训练集上训练新的随机森林分类器,并用于预测测试集,同时存储该森林供后续使用。
4. 重复上述步骤200次。
5. 最后,使用简单投票合并所有测试集的预测结果,并用于获得OOB误差近似值。对扩展集的验证类似,即使用装袋中构建的所有森林预测验证集,并通过投票合并结果。
1.2 基准测试与计算资源需求
在最初的研究中,数据被分为38个对象的训练集和16个对象的测试集。为了更全面地评估,采用了不同的训练/测试分割进行重采样交叉验证,重复该过程30次。每次迭代涉及200次特征选择算法,计算量巨大。例如,单个随机森林运行36个对象和25000个变量在现代CPU单核上约需2分钟,一次Boruta运行约
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



