基因数据聚类与DNA芯片设计优化研究
在生物信息学领域,基因数据的聚类分析和DNA芯片设计是两个重要的研究方向。下面将详细介绍基因数据聚类和DNA芯片设计的相关内容。
基因数据聚类分析
- 数据与聚类方法 :研究分析了酵母基因在细胞周期中的表达值数据。此前研究表明,基因的不相交聚类与细胞周期的五个阶段(早期G1、晚期G1、S、G2、M)显著相关。使用k - means算法得到了2到6个簇的多个聚类分区,通过Machaon CVE工具进行聚类操作,以估算该数据集的最佳簇数。
- 聚类验证方法
- C - index :C - index的计算公式为(C = \frac{S - S_{min}}{S_{max} - S_{min}})。其中,设(p)为同一簇中所有样本对的数量,(S)是这些(p)对样本间距离的总和;(P)是数据集中所有可能样本对的数量,将(P)对样本按距离排序,可选取距离最小的(p)对和距离最大的(p)对,它们的距离总和分别为(S_{min})和(S_{max})。(C)值越小,表明聚类效果越好,使(C)指数最小的簇数被视为最佳簇数(c)。
- Goodman - Kruskal index :对于给定数据集,该方法为所有可能的四元组赋值。若满足特定条件,四元组被称为一致的;反之则为不一致的。设(N_{con})和(N_{dis})分别表示一致和不一致四元组的数量,Goodman - Kruskal指数(GK = \frac{N_{con} - N_{dis
超级会员免费看
订阅专栏 解锁全文
2140

被折叠的 条评论
为什么被折叠?



