基于邻域粗糙集模型的基因选择方法研究
1. 肿瘤分类特征获取方法概述
在肿瘤分类中,通常有特征提取和基因选择这两种获取特征的方法。然而,肿瘤数据集具有高维度和小样本量的特点,仅通过一步操作来提取最佳特征或选择最小的信息基因子集以获得最高分类准确率是很困难的。因此,设计了一种新颖的两步法来实现这一目标。
1.1 算法模型步骤
- 步骤 1 :根据使用 Kruskal - Wallis 秩和检验计算每个基因的 p 值进行基因排名,从而选择初始基因集 $G_{top}$。
- 步骤 2 :采用邻域粗糙集模型选择信息基因集 $G_{o}$(它由多个基因子集组成),或者使用主成分分析(PCA)从基因集 $G_{top}$ 中提取主成分(PCs)。
- 步骤 3 :使用分类器评估提取的 PCs 或从 $G_{o}$ 中选择最优基因集 $G^{ }$。通常,$G^{ }$ 中的基因子集具有近似最高的准确率。
1.2 邻域决策表相关定义
设 $NDT = $ 为邻域决策表,其中:
- $S = {s_1, s_2, \cdots, s_m}$ 是一个非空样本集,称为样本空间。
- $G = {g_1, g_2, \cdots, g_n}$ 是一个非空基因集,也称为条件属性。
- $D = {L}$ 是一个输出变量,称为决策属性。
- $V_a$ 是属性 $a \in G \cup D$ 的值域。
- $
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



