后基因组时代聚类分析的关键步骤与方法解析
在生物信息学和数据挖掘领域,聚类分析是一项至关重要的技术,尤其是在处理基因表达数据时。本文将详细介绍聚类分析的相关步骤、使用的数据集、距离度量方法、聚类算法以及如何通过ROC分析评估距离 - 聚类性能。
1. 实验设置
1.1 数据集
在本次研究中,使用了四个数据集,每个数据集都有其特定的来源和特点,并且都有预先定义好的“黄金解决方案”,即已知的分类信息。具体数据集如下:
| 数据集名称 | 矩阵维度 | 来源 | 黄金解决方案分类数 |
| — | — | — | — |
| Lymphoma | 80 × 100 | Alizadeh 等人对三种常见成人淋巴瘤肿瘤的研究 | 3 |
| NCI60 | 57 × 200 | 美国国家癌症研究所抗癌药物筛选中六十种细胞系的基因表达变异微阵列研究 | 8 |
| Normal Tissue | 90 × 1277 | Su 等人对四种不同癌症类型的研究 | 4 |
| PBM | 2329 × 139 | 包含 2329 个 cDNA 和 139 个寡核苷酸指纹图谱,cDNA 来自 18 个不同基因 | 18 |
1.2 距离度量
在众多可用的距离函数中,选择了欧几里得距离、皮尔逊相关性和互信息(MI),因为它们被证明最适合微阵列数据。这些距离函数在后续的聚类分析中起着重要作用。
1.3 算法与硬件
使用了自己用 C/C++ 实现的 NMF 算法,该实现基于 Broad 研究所提供的 Matlab 脚本,并经过验证确保与 Matlab 版本
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



