谱聚类（spectral clustering）原理总结

最新推荐文章于 2025-04-06 23:40:42 发布

花雍698

最新推荐文章于 2025-04-06 23:40:42 发布

阅读量338

点赞数

文章标签：聚类机器学习

本文链接：https://blog.youkuaiyun.com/m0_61968929/article/details/124869508

版权

谱聚类是一种强大的无监督学习方法，适用于数据分布复杂和高维场景。它基于图论，通过构建相似矩阵、邻接矩阵和拉普拉斯矩阵，寻找最优切图以实现聚类。算法包括无向权重图、拉普拉斯矩阵、无向图切图（如RatioCut和Ncut）等关键步骤。通过降维和聚类，谱聚类能处理稀疏数据和高维数据，但效果依赖于相似度矩阵。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

谱聚类（spectral clustering）原理总结

谱聚类对数据分布的适应性更强，聚类效果优秀，同时聚类的计算量小且实现起来不复杂。
引用文章链接：https://blog.youkuaiyun.com/yc_1993/article/details/52997074

等周长问题：具体为如何在给定长度的线条下围出一个最大的面积，也可理解为，在给定面积下如何使用更短的线条，而这，也正是谱图聚类想法的端倪，如何在给定一张图，拿出“更短”的边来将其“更好”地切分。而这个“更短”的边，正是对应了spectral clustering中的极小化问题，“更好”地切分，则是对应了spectral clustering中的簇聚类效果。

1、谱聚类概述

谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。

主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

乍一看，这个算法原理的确简单，但是要完全理解这个算法的话，需要对图论中的无向图，线性代数和矩阵分析都有一定的了解。下面我们就从这些需要的基础知识开始，一步步学习谱聚类。

spectral clustering的优点主要有以下：

过程对数据结构并没有太多的假设要求
可以通过构造稀疏Similarity Graph，使得对于更大的数据集表现出明显优于其他算法的计算速度。
由于Spectral Clustering是对图切割处理，不存在像Kmeans将离散的小簇聚合在一起的情况。
无需像GMM一样对数据概率分布做假设。

2. 谱聚类基础之一：无向权重图

由于谱聚类是基于图论的，因此我们首先温习下图的概念。

对于一个图 $G$ 我们一般用点的集合 $V$ 和边的集合 $E$ 来描述。即为 $G (V, E)$ ,其中 $V$ 即为数据集里面所有的点 ${ {v}_{1}},{ {v}_{2}},...,{ {v}_{n}})$ 。对于 $V$ 中的任意两个点，可以有边连接，也可以没有边连接。我们定义权重 ${ {w}_{ij}}$ 为点 ${ {v}_{i}}$ 和点 ${ {v}_{j}}$ 由于我们是无向图，所以 ${ {w}_{ij}}={ {w}_{ji}}$ 。对于有边连接的两个点 ${ {v}_{i}}$ 和 ${ {v}_{j}}$ , ${ {w}_{ij}>0}$ ,对于没有边连接的两个点 ${ {v}_{i}}$ 和 ${ {v}_{j}}$ , ${ {w}_{ij}=0}$ 。对于图中的任意一个点 ${ {v}_{i}}$ 它的度 ${ {d}_{i}}$ 定义为和它相连的所有边的权重之和，即:

${d}_{i}}=\sum\limits_{j=1}^{n}{ { {w}_{ij}}}$

利用每个点度的定义，我们可以得到一个nxn的度矩阵 $D$ 它是一个对角矩阵，只有主对角线有值，对应第i行的第i个点的度数，定义如下： $D=\left( \begin{matrix} { {d}_{1}} & \ldots & \ldots \\ \ldots & { {d}_{2}} & \ldots \\ \vdots & \vdots & \ddots \\ \ldots & \ldots & { {d}_{n}} \\ \end{matrix} \right)$

利用所有点之间的权重值，我们可以得到图的邻接矩阵 $W$ ,它也是一个 $n * n$ 的矩阵，第i行的第j个值对应我们的权重 ${}{ {w}_{ij}}$ 除此之外，对于点集 $V$ 的的一个子集 $A \subset V$ ，我们定义：

$∣ A ∣$ :子集A中点的个数 $vol(A)=\underset{i\in A}{\mathop{\sum }}\,{ {d}_{i}}$

3. 谱聚类基础之二：相似矩阵

对于邻接矩阵 $W$ ,它是由任意两点之间的权重值 ${ {w}_{ij}}$

组成的矩阵。通常我们可以自己输入权重，但是在谱聚类中，我们只有数据点的定义，并没有直接给出这个邻接矩阵，那么怎么得到这个邻接矩阵呢？

基本思想，距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，不过这仅仅是定性，我们需要定量的权重值。一般来说，我们可以通过样本点距离度量的相似矩阵 $S$ 来获得邻接矩阵 $W$ 。

构建邻接矩阵 $W$ 的方法有三类。 $ϵ -$ 邻近法，K邻近法和全连接法。

对于 $ϵ -$ 邻近法，它设置了一个距离阈值 $ϵ$ 然后用欧式距离 ${ {S}_{ij}}$ 度量任意两点 ${ {x}_{i}}和$ ${ {x}_{j}}$ 的距离。即相似矩阵的 ${ {S}_{ij}}=||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}$ , 然后根据 ${ {S}_{ij}}$ 和 $ϵ$ 的大小关系，来定义邻接矩阵 $W$ 如下：

${w}_{ij}}=\left\{ \begin{matrix} 0 & { {s}_{ij}}>\varepsilon \\ \varepsilon & { {s}_{ij}}<\varepsilon \\ \end{matrix} \right.$

从上式可见，两点间的权重要不就是 $ϵ$ ,要不就是0，没有其他的信息了。距离远近度量很不精确，因此在实际应用中，我们很少使用ϵ-邻近法。

第二种定义邻接矩阵 $W$ 的方法是K邻近法，利用KNN算法遍历所有的样本点，取每个样本最近的k个点作为近邻，只有和样本距离最近的k个点之间的 ${ {w}_{ij}}>0$ 。但是这种方法会造成重构之后的邻接矩阵 $W$ 非对称，我们后面的算法需要对称邻接矩阵。为了解决这种问题，一般采取下面两种方法之一：

第一种K邻近法是只要一个点在另一个点的K近邻中，则保留 ${ {S}_{ij}}$

${w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})and{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})or{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right.$

第二种K邻近法是必须两个点互为K近邻中，才能保留 ${ {S}_{ij}}$

${w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})or{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})and{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right.$

最低0.47元/天解锁文章