3、后基因组时代聚类分析的关键步骤与方法解析

最新推荐文章于 2025-11-07 16:00:51 发布

open4

最新推荐文章于 2025-11-07 16:00:51 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：生物信息学前沿探秘文章标签：聚类分析生物信息学微阵列数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/open4/article/details/153559395

生物信息学前沿探秘专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

后基因组时代聚类分析的关键步骤与方法解析

在生物信息学和数据挖掘领域，聚类分析是一项至关重要的技术，尤其是在处理基因表达数据时。本文将详细介绍聚类分析的相关步骤、使用的数据集、距离度量方法、聚类算法以及如何通过ROC分析评估距离 - 聚类性能。

1. 实验设置

1.1 数据集

在本次研究中，使用了四个数据集，每个数据集都有其特定的来源和特点，并且都有预先定义好的“黄金解决方案”，即已知的分类信息。具体数据集如下：
| 数据集名称 | 矩阵维度 | 来源 | 黄金解决方案分类数 |
| — | — | — | — |
| Lymphoma | 80 × 100 | Alizadeh 等人对三种常见成人淋巴瘤肿瘤的研究 | 3 |
| NCI60 | 57 × 200 | 美国国家癌症研究所抗癌药物筛选中六十种细胞系的基因表达变异微阵列研究 | 8 |
| Normal Tissue | 90 × 1277 | Su 等人对四种不同癌症类型的研究 | 4 |
| PBM | 2329 × 139 | 包含 2329 个 cDNA 和 139 个寡核苷酸指纹图谱，cDNA 来自 18 个不同基因 | 18 |

1.2 距离度量

在众多可用的距离函数中，选择了欧几里得距离、皮尔逊相关性和互信息（MI），因为它们被证明最适合微阵列数据。这些距离函数在后续的聚类分析中起着重要作用。

1.3 算法与硬件

使用了自己用 C/C++ 实现的 NMF 算法，该实现基于 Broad 研究所提供的 Matlab 脚本，并经过验证确保与 Matlab 版本

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。