一种特征选择算法TriVote(An OMIC biomarker detection algorithm TriVote and its application )

本文介绍了一种新颖的特征选择算法TriVote,针对大规模转录组和甲基化组数据,通过三步筛选提高二分类任务的精度和效率。TriVote在多个数据集上表现出色,具有较小特征数和生物学意义。它在17个转录组和2个甲基化组数据集上的性能优于现有方法。研究还提供了Python包便于应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 摘要

    转录组和甲基化组模式是受可遗传信息和环境因素影响的两大主要基因组数据来源,已被广泛用作疾病诊断和预后的生物标志物。现代转录组和甲基化组分析技术可以检测到人类基因组中数以万计甚至数以百万计的探测残留物的状态,并对现有的特征选择算法提出了一个重大的计算挑战。本研究提出一种三步特征选择算法,TriVote,以检测具有高精确度的二分类性能的转录组或甲基化组子集。TriVote在17个转录组和2个甲基化组上均优于其它特征选择算法,具有更高的分类精度和更小的特征数。此外,文章还讨论了TriVote检测的甲基化生物标记物的生物学功能及其疾病相关性。还发布了一个易于使用的Python包,以方便以后的应用程序。
在这里插入图片描述

2. 介绍

    现有的特征选择研究大多集中在转录组生物标志物的检测上。有两大类特征选择算法:过滤器和包装器。特征选择是一个非确定性多项式时间困难(NP-hard)问题,换句话说,在多项式运行时间内找到全局最优解是计算不可能的。所以除了对小数据集的穷尽筛选之外,所有的特征选择算法都是近似算法。过滤器利用统计检验来计算每个特征与表型的关联显著性,并根据它们的关联显著性对特征进行排序。包装器试图通过优化特征子集的目标函数来评估一个启发式选择的特征子集,通常是一个预定义的分类算法的精确度。包装器通常比过滤器获得更好的分类性能,因为过滤器假设特征之间相互独立,并且没有直接优化分类准确率。混合特征选择算法利用了来自过滤器和包装器的模式。

    本研究提出了一种新的特征选择算法TriVote,该算法能够高效、准确地对转录组和甲基体进行特征选择。

3. 材料和方法

3.1 数据集总结

    为了对TriVote和现有特征选择算法的表现进行无偏研究,本研究选择了17个转录组和2个甲基组数据集进行比较。这17个转录组数据集都是广泛使用和公开的。包括DLBCL、Pros、Colon、Leuk、Mye、ALL1、ALL2、ALL3、ALL4、CNS、Lym、Adeno、Gas,、Gas1、Gas2 、T1D和Stroke。此外还有两个甲基化数据GEO ID: GSE80417和GEO ID: GSE42861。

3.2分类性能测量

    本文主要研究二值分类问题。也就是说,这个问题中的数据集有两类样本。样本通常分为正样本和负样本,缩写为P = {P1, P2,…, Pn}, N = {N1, N2,…,Nm}。正样本数和负样本数分别为n和m。数据集中的每个样本都是一个k维数据向量X = <F1(x),F2(x),…,Fk(x)>。二值分类器的目标是确定分配一个类标签给样本X。

    采用三种广泛使用的指标来评价二值分类器的预测性能,即灵敏性(Sn)、特异性(Sp)和准确性(Acc)。让正确预测的阳性样本的数量为TP(真阳性),其余的数量为FN(假阴性)。同样,正确预测的负样本的数量定义为TN(真阴性),而假阳性样本的数量定义为FP。在本例中,敏感性计算为Sn = TP/ (TP + FN),特异性定义为Sp = TN/ (TN + FP)。整体精度Acc公式为Acc = (TP + TN)/(TP + FN + TN + FP)。这些性能测量值是交叉验证策略的20次随机运行的平均值。随机运行的次数是用户指定的参数。

3.3 特征选择性能度量

    “大p小n”范式存在于大尺度生物医学数据集中,大多数基于组学数据的生物标志物检测研究都试图使用最小数量的特征来实现最大的预测精度。同时优化两个目标是困难的。因此,本研究首先试图提高分类精度。选择多种分类算法来评估一个特征子集在分类问题上的表现如何。如果两个分类器的性能相似,那么根据Occam 's razor的规则,选择功能更少、模型结构更简单的分类器。

    用支持向量机(SVM)、朴素贝叶斯(NBayes)、决策树(DTree)和最近邻(NN)四种代表性分类算法对给定的特征子集进行评价。性能度量mAcc (maximum accuracy)定义为四个分类器在给定特征子集上所达到的最大精度。

3.4 提出的算法TriVote

    TriVote使用一系列三个选择步骤迭代筛选特征,直到满足用户定义的特征号和mAcc的界限为止。TriVote的伪代码在框1中描述。

在这里插入图片描述
由于文章在服务器上,全文详见:
http://bbit.vip/service/main.php?version=1&type=article&id=86

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值