基因选择、信号分类与聚类分析的创新方法
1. 癌症分类中的基因选择新方法
1.1 相关度量引入
在癌症分类的基因选择方面,传统的Gloub等人的方法仅基于单一的相关度量,存在一定局限性。为了弥补这一不足,引入了另外两种相关度量:
- (p_{1i} = |\mu_{1i} - \mu_i| / \sigma_{1i})
- (p_{2i} = |\mu_{2i} - \mu_i| / \sigma_{2i})
其中,(\mu_i) 是基因 (g_i) 的平均表达值,即 (\mu_i = \sum_{j = 1}^{N} g_{ij} / N)。(p_{1i}) 和 (p_{2i}) 反映了基因 (g_i) 与急性淋巴细胞白血病(ALL)或急性髓细胞白血病(AML)类别的相关程度。
1.2 基因选择策略
新的基因选择策略综合考虑了三种相关度量 (p_i)、(p_{1i}) 和 (p_{2i})。具体步骤如下:
1. 合并原始训练集和独立测试集。
2. 通过公式计算每个基因的 (p_i)、(p_{1i}) 和 (p_{2i}) 值。
3. 提取三个基因子集:
- 选取 (p_i) 值最大和最小的各 25 个基因,共 50 个基因。
- 选取 (p_{1i}) 值最大的 100 个基因。
- 选取 (p_{2i}) 值最大的 100 个基因。
4. 找出这三个子集中的 46 个共同基因,这些基因即为有信息价值的基因。与 Gloub 等人选择的 50 个信息基因相比,新方法选出的 46 个基因中仅有 23 个与之相同,体现了两种基因选择方法的差异。
基因与信号分析的创新方法
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



