从微阵列数据中分组功能相似基因的方法与算法
在基因表达数据分析中,聚类是一项重要任务。将聚类算法应用于基因表达数据时,可在基因和样本维度上进行操作。传统聚类方法能将相互依赖或相关的基因子集分组,聚类后可挑选出一组精简的基因用于进一步分析,还能识别出具有相似表达模式的共表达基因。下面将介绍不同的基因聚类算法及其有效性指标,以及一种新的基于粗糙 - 模糊 C - 均值的算法。
1. 不同的基因聚类算法
1.1 硬 C - 均值算法
硬 C - 均值是一种简单的无监督学习算法。设 (X = {x_1, \ldots, x_j, \ldots, x_n}) 是 (n) 个对象的集合,(V = {β_1, \ldots, β_i, \ldots, β_c}) 是 (c) 个质心的集合,它们都具有 (m) 个维度,其中 (x_j \in \mathbb{R}^m) 且 (v_i \in \mathbb{R}^m)。该算法的目标是将 (n) 个对象分配到 (c) 个聚类中,每个聚类 (δ_i) 由一个质心 (v_i) 表示。
主要步骤如下:
1. 分配初始质心 (v_i),(i = 1, 2, \ldots, c)。
2. 对于每个对象 (x_j),计算其与聚类 (δ_i) 的质心 (v_i) 之间的距离 (d_{ij})。
3. 如果对于 (1 \leq i \leq c),(d_{ij}) 最小,则 (x_j \in δ_i)。
4. 根据公式 (v_i = \frac{1}{n_i} \sum_{x_j \in δ_i} x_j) 计算新的质心,其中 (n_i) 表示聚类 (δ_i) 中的对象数量。
5. 重复步骤 2 到
超级会员免费看
订阅专栏 解锁全文
60

被折叠的 条评论
为什么被折叠?



