8、序列聚类与基序分析：原理、方法与应用

脚滑的狐狸160

于 2025-11-09 12:18:31 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：序列数据挖掘精要文章标签：序列聚类基序分析加权图切割法

本文链接：https://blog.youkuaiyun.com/nginx7reverse/article/details/154893518

序列数据挖掘精要专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

序列聚类与基序分析：原理、方法与应用

1. 序列数据聚类

在序列数据聚类方面，有多种方法可供选择，以下为你详细介绍：
- 加权图切割法（WGCM） ：该方法旨在最小化簇间权重（ws）。在每次迭代中，它会反复检查是否可以通过将一个序列从 V1 移动到 V2 或反之来减少 ws，并选择能使减少量最大化的移动。对于将 v1 ∈ V1 移动到 V2 的减少量，可以通过以下公式计算：
[w(V1, V2) - w(V1 - {v1}, V2 \cup {v1}) = \sum_{v2 \in V2} w(v1, v2) - \sum_{v‘1 \in V1} w(v1, v‘1)]
将 v2 ∈ V2 移动到 V1 的减少量计算方法类似。在每次迭代中，WGCM 对每个给定节点最多移动一次，并选择使移动减少量之和最大化的移动次数。
- 高连通子图法（HCS） ：此方法试图最大化子图中的边密度。它先将图转换为普通图，仅使用相似度权重高于阈值的边。图 G′ 的边连通性 k(G′) 是指移除后会使图断开的最小边数。若 k(G′) > n′ / 2 条边（n′ 是 G′ 的节点数），则称 G′ 为高度连通图。该方法通过寻找图 G 的最大高度连通子图来生成聚类。
- 马尔可夫聚类法（MCL） ：该算法从加权相似度图中发现良好的聚类。它基于随机游走概率来引导对自然序列聚类的搜索，其直觉是随机游走大多应在自然聚类内开始和结束，很少从一个自然聚类引导到另一个自然聚类。