76、提升特征子集选择算法:改善基因选择性能

提升特征子集选择算法:改善基因选择性能

在基因选择领域,单基因基的基因选择算法虽然简单且在一定程度上能提高样本分类准确性,但存在明显不足。本文将介绍一种新颖的元算法,用于提升单基因基基因选择算法的性能,并通过实验验证其有效性。

单基因基基因选择算法的局限性

单基因基基因选择算法,如统计测试(t - 检验、F - 检验)、非参数测试(如TNoM)、互信息、S2N比率(信噪比)等,假设基因之间相互独立,这过度简化了基因间的复杂关系。实际上,基因通过基因调控网络相互作用,共同调节基因通常具有相似的表达谱。例如,在常见的微阵列数据集聚类分析中,就基于共同调节基因具有相似表达谱这一假设。

为了说明单基因基基因选择算法的局限性,我们来看一个例子。假设有三个基因,在100个样本中的表达水平如图所示,样本分为癌症(灰色背景)和正常(白色背景)两类。基因1和基因2表现相似,在大多数样本(样本1 - 40和样本61 - 100,即80%的样本)中,它们的表达水平可以有效预测样本类别。然而,在样本41 - 60(20%的样本)中,这两个基因的表达水平在癌症/正常类别区分上较为混乱。基因3单独来看预测能力较弱,在样本31 - 70(40%的样本)中有明显趋势,但在其余样本(60%)中,其表达水平在癌症/正常标签间变化较大。按照t - 分数和S2N分数,基因的排名为:基因2 > 基因1 > 基因3。但如果选择两个基因进行数据分析,选择基因1和基因2并不一定是最佳选择,因为它们在很多样本中表现相似,而选择基因2和基因3可能更好,因为基因3可以“覆盖”基因2表现不佳的样本。

提升特征子集选择算法(BFSS)

为了克服单基因基基因选择算法的局限性,我们提出

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值