基因选择中的f -信息度量:性能分析与应用
在基因选择领域,信息度量方法对于从高维基因表达数据中识别有区分性的基因至关重要。本文将介绍不同的f -信息度量方法,并分析它们在基因选择中的性能。
1. 分类器与度量方法概述
在特征空间中,有多种分类器可用于基因选择,常见的有K -近邻(K - NN)分类器和朴素贝叶斯(NB)分类器。
- K -近邻(K - NN)分类器 :一个样本通过其K个最近邻的多数投票进行分类,样本被分配到其K个最近邻中最常见的类别。K值通常选择为训练集样本数量的平方根。
- 朴素贝叶斯(NB)分类器 :是最古老的分类器之一,它基于贝叶斯规则,并假设在给定类别下,特征或变量相互独立。对于第j个样本$x_j$,具有m个基因表达水平${w_{1j}, \ldots, w_{ij}, \ldots, w_{mj}}$,$x_j$属于类别c的后验概率为:
[p(c|x_j) \Rightarrow \prod_{i = 1}^{m} p(w_{ij}|c)]
其中$p(w_{ij}|c)$是从训练示例中估计的条件表或条件密度。
2. 实验设置
为了评估不同f -信息度量方法的性能,进行了一系列实验,使用了三种微阵列数据集:乳腺癌、白血病和结肠癌数据集。实验中使用了NB、支持向量机(SVM)和K - NN三种分类器,并采用留一法交叉验证来计算预测准确性。选择的基因数量范围从2到50,每个数据集在预处理时将每个样本标准化为零均值和单位方差。研究的f -信息度量的β值包括0.2、0.5、0.8、1.5、2.0、3.0和4.0,其中一些度量
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



