Spectral Clustering

最新推荐文章于 2022-02-18 21:13:01 发布

hj_huangjun

最新推荐文章于 2022-02-18 21:13:01 发布

阅读量4k

点赞数

谱聚类是一种基于SVD/特征分解的聚类方法，相较于传统聚类算法，它无需数据是欧式空间中的向量，更加健壮，对不规则误差数据不敏感，计算复杂度较低，特别适用于高维数据，如文本或图像。通过构造图和求解特征向量，谱聚类能够实现高效聚类。同时，谱聚类与PCA/LDA等方法结合，能进一步提升聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.sciencenet.cn/blog-260809-509560.html

Spectral Clustering

什么叫Spectral Algorithm?
广义上来说，任何在演算法中用到SVD/特征值分解的，都叫Spectral Algorithm。从很老很老的PCA/LDA，到比较近的Spectral Embedding/Clustering，都属于这类。

一篇非常经典的教程 A Tutorial on Spectral Clustering.pdf

A_Tutorial_on_Spectral_Clustering.pdf

Spectral Clustering，中文通常称为“谱聚类”。由于使用的矩阵的细微差别，谱聚类实际上可以说是一“类”算法。

Spectral Clustering 和传统的聚类方法（例如 K-means）比起来有不少优点：

1）和 K-medoids 类似，Spectral Clustering 只需要数据之间的相似度矩阵就可以了，而不必像 K-means 那样要求数据必须是 N 维欧氏空间中的向量。

2）由于抓住了主要矛盾，忽略了次要的东西，因此比传统的聚类算法更加健壮一些，对于不规则的误差数据不是那么敏感，而且 performance 也要好一些。许多实验都证明了这一点。事实上，在各种现代聚类算法的比较中，K-means 通常都是作为 baseline 而存在的。

3）计算复杂度比 K-means 要小，特别是在像文本数据或者平凡的图像数据这样维度非常高的数据上运行的时候。

Spectral Clustering 算法的全貌：

1）根据数据构造一个 Graph ，Graph 的每一个节点对应一个数据点，将相似的点连接起来，并且边的权重用于表示数据之间的相似度。把这个 Graph 用邻接矩阵的形式表示出来，记为 W 。

2)把的每一列元素加起来得到N 个数，把它们放在对角线上（其他地方都是零），组成一个N*N的矩阵，记为D 。并令L = D - W 。

3)求出L的前k个特征值（在本文中，除非特殊说明，否则“前k个”指按照特征值的大小从小到大的顺序）以及对应的特征向量。

4)把这k个特征（列）向量排列在一起组成一个N*k的矩阵，将其中每一行看作k维空间中的一个向量，并使用 K-means算法进行聚类。聚类的结果中每一行所属的类别就是原来 Graph 中的节点亦即最初的N个数据点分别所属的类别。

为什么要用SVD/特征值分解?
其实并不是为用而用，而是不得不用。目前在研究领域碰到的很多基础问题都是NP-hard的，找一个比较好的近似演算法要费很大的精力；就算找到多项式的近似方法，也会出现实际使用上仍然太慢/解陷入局部极小等问题。

比如说用K-means聚类，建模本身已经够简单了，但它是NP-hard的，用传统的EM迭代作近似解会陷入局部极小。

反之，SVD理论上只有唯一解，演算法速度相对又快，并且有大量理论结果及周边性质支持，可以算是一个很理想地能将NP-hard问题“靠”上去的模型；它的另一个好处是，作为带约束二次规划的一种特殊情况，它对运算式为二次的目标函数的“相容性”比较好，“靠”所要求的数学技巧不高，任何人，任何方向都能拿来试试。

Spectral Algorithm的几个方向:
传统的如PCA/LDA用来做线性降维，2000年左右的一些Spectral Embedding及Spectral Clustering，还有周边的一些，如Low-rank approximation等等。

为什么先做降维再做K-means，效果会更好呢？
另外，有趣的是K-means可以用PCA来做近似解。 K-means是说找到K个点，使得所有点到这K个点的距离平方和最小；
而SVD是说找到一个子空间，使得所有点到这个子空间的距离平方和最小。于是这两者就建立了联系，K-means便relax到SVD上去了。

Spectral Clustering/Embedding:

Spectral Clustering可算是Spectral Algorithm的重头戏。
所谓Clustering，就是说聚类，把一堆东西（合理地）分成两份或者K份。从数学上来说，聚类的问题就相当于Graph Partition的问题，即给定一个图G = (V, E)，如何把它的顶点集划分为不相交的子集，使得这种划分最好。其难点主要有两个：

1.这个“合理”其实相当难达到，随便设一个目标函数可能达不到希望的结果。大家可以看了看[1] Ravi Kannan and Adrian Vetta, On clusterings: good, bad and spectral，这里详细地讨论了一下准则的选择问题。
2.即使我们定义了一个相当好的聚类准则，如何优化它又是一个问题。

对于1，在Spectral Clustering这一块，各家有各家的想法。主要有以下几种：
a)大名鼎鼎的Normalized Cut[2]，还有一些变种如Ratio Cut/Minmax cut.
b)和代数图论紧密相联的Minimum conductance[1].
c)没有准则，但有证明的演算法[3]
d)不基于图，而是reformulate原来的聚类方法，使之变成SVD能解的问题[4]。
2则完全被1的选取所决定。

Normalized Cut:
在图上，定义什么样的聚类最好，最简单的方法是圈定K个不相交顶点集之后，希望顶点集之间的边，其权值的和最小。(边上的权值代表的是两头的顶点邻近的程度，或者说相似度）这就是所谓MinCut（最小割）问题。二类分类的最小割不是NP-hard的，但是这不能让人感到开心，因为MinCut这个准则对于聚类不好。

具体来说，Mincut完全可能将离大部队过远的单个顶点与其他顶点分开,形成两类。
事实上，我们不仅仅要让割边的权和最小，而且要让这K个顶点集都差不多大，这样才符合聚类给人的直观感觉。

于是在MinCut的基础上，出现了Normalized Cut.思路很简单，将Cut normalize一下，除以表现顶点集大小的某种量度(如vol A =所有A中顶点集的度之和)。
也就是Normalize Cut(A, B) = Cut(A, B) / volA + cut(A, B) / volB
然而这样一改，NP-hard就来了。这几乎是所有组合优化问题的恶梦。