20、从微阵列数据中分组功能相似基因的方法与算法

最新推荐文章于 2025-11-08 13:26:58 发布

咖啡JSON

最新推荐文章于 2025-11-08 13:26:58 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《可扩展模式识别算法》：生物信息学应用文章标签：基因聚类微阵列数据硬C-均值算法

本文链接：https://blog.youkuaiyun.com/i1j2k/article/details/149639683

解读《可扩展模式识别算法》：生物信息学应用专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从微阵列数据中分组功能相似基因的方法与算法

在基因表达数据分析中，聚类是一项重要任务。将聚类算法应用于基因表达数据时，可在基因和样本维度上进行操作。传统聚类方法能将相互依赖或相关的基因子集分组，聚类后可挑选出一组精简的基因用于进一步分析，还能识别出具有相似表达模式的共表达基因。下面将介绍不同的基因聚类算法及其有效性指标，以及一种新的基于粗糙 - 模糊 C - 均值的算法。

1. 不同的基因聚类算法

1.1 硬 C - 均值算法

硬 C - 均值是一种简单的无监督学习算法。设 (X = {x_1, \ldots, x_j, \ldots, x_n}) 是 (n) 个对象的集合，(V = {β_1, \ldots, β_i, \ldots, β_c}) 是 (c) 个质心的集合，它们都具有 (m) 个维度，其中 (x_j \in \mathbb{R}^m) 且 (v_i \in \mathbb{R}^m)。该算法的目标是将 (n) 个对象分配到 (c) 个聚类中，每个聚类 (δ_i) 由一个质心 (v_i) 表示。
主要步骤如下：
1. 分配初始质心 (v_i)，(i = 1, 2, \ldots, c)。
2. 对于每个对象 (x_j)，计算其与聚类 (δ_i) 的质心 (v_i) 之间的距离 (d_{ij})。
3. 如果对于 (1 \leq i \leq c)，(d_{ij}) 最小，则 (x_j \in δ_i)。
4. 根据公式 (v_i = \frac{1}{n_i} \sum_{x_j \in δ_i} x_j) 计算新的质心，其中 (n_i) 表示聚类 (δ_i) 中的对象数量。
5. 重复步骤 2 到

会员秒杀 ¥9.9 重磅福利

超级会员免费看