基因数据集的矩阵分解技术分析
1. 白血病数据集分析
1.1 数据集概述
白血病数据集最初包含负值,不符合基因表达水平的非负荧光强度概念,因此使用修改后的非负版本。该数据集包含38个实验,每个实验代表5000个基因的表达水平,且没有对应的测试数据集。存在两种诊断类型,每种类型包含两个类别:
- 类型1 :白血病类型ALL(实验1 - 27)和AML(实验28 - 38),有一份可能的信息基因参考列表。
- 类型2 :ALL白血病可分为ALL - B(实验1 - 19)和ALL - T(实验20 - 27)两个亚型。
1.2 ICA分析
使用JADE算法将数据集分解为k = M = 38个表达模式。在类型1中,矩阵A的第27列与设计向量的相关系数为0.77;在类型2中,第23列的相关系数为0.87。
- 维度缩减 :提取的表达模式数量受实验数量限制,可在JADE算法的白化步骤中进行维度缩减(PCA)。若k < M,仅考虑前k个主成分,但会导致矩阵分解不精确。信息损失可通过协方差矩阵的前k个特征值之和与总特征值之和的比例,或原始数据矩阵$X^T$与其重建版本$X^T_{rec} := A · S$的相似度来量化。
- 不同k值的相关系数 :对于k从2到38,计算了M × k矩阵A的列向量与设计向量的最大相关系数。在类型1中,k = 17时相关系数达到0.86;在类型2中,k = 12时达到0.97。类型1的前17个主成分覆盖93.5%的总方差,类型2的前12个主
超级会员免费看
订阅专栏 解锁全文
1473

被折叠的 条评论
为什么被折叠?



