序列聚类与基序分析:原理、方法与应用
1. 序列数据聚类
在序列数据聚类方面,有多种方法可供选择,以下为你详细介绍:
- 加权图切割法(WGCM) :该方法旨在最小化簇间权重(ws)。在每次迭代中,它会反复检查是否可以通过将一个序列从 V1 移动到 V2 或反之来减少 ws,并选择能使减少量最大化的移动。对于将 v1 ∈ V1 移动到 V2 的减少量,可以通过以下公式计算:
[w(V1, V2) - w(V1 - {v1}, V2 \cup {v1}) = \sum_{v2 \in V2} w(v1, v2) - \sum_{v‘1 \in V1} w(v1, v‘1)]
将 v2 ∈ V2 移动到 V1 的减少量计算方法类似。在每次迭代中,WGCM 对每个给定节点最多移动一次,并选择使移动减少量之和最大化的移动次数。
- 高连通子图法(HCS) :此方法试图最大化子图中的边密度。它先将图转换为普通图,仅使用相似度权重高于阈值的边。图 G′ 的边连通性 k(G′) 是指移除后会使图断开的最小边数。若 k(G′) > n′ / 2 条边(n′ 是 G′ 的节点数),则称 G′ 为高度连通图。该方法通过寻找图 G 的最大高度连通子图来生成聚类。
- 马尔可夫聚类法(MCL) :该算法从加权相似度图中发现良好的聚类。它基于随机游走概率来引导对自然序列聚类的搜索,其直觉是随机游走大多应在自然聚类内开始和结束,很少从一个自然聚类引导到另一个自然聚类。
2. 聚类结果的质量评估
对于聚类结果的质量评估,可以使用两种类型的
超级会员免费看
订阅专栏 解锁全文
114

被折叠的 条评论
为什么被折叠?



