谱聚类是一种用图论思想解决聚类问题的手段。
一、背景
1.1 一些图论的知识
首先定义无向图G(V,E)G(V,E)G(V,E)的几个基本概念:
1、邻接矩阵WWW,是一个n∗nn*nn∗n的对称方阵。
2、顶点的度矩阵DDD,是一个n∗nn*nn∗n的对角矩阵,对角线元素为对应顶点的度。是由邻接矩阵各行元素累加至主对角得到的。如下图所示:
当图G的边带有权重时,可将权重视为顶点间的相似度,WWW转换为相似度矩阵,顶点的度转换为连接它所有边的权重之和。
3、子图AAA的势∣A∣|A|∣A∣等于图的所有顶点数。
4、子图AAA的体积 vol(A)vol(A)vol(A) 等于所有顶点的度之和。
5、边割表示边的集合,去掉这些边将导致原图变成两个连通子图,如下图红边就是一个边割:
6、用子图相似度来度量两个子图的相似程度,定义为连接两个子图的所有边的权重之和。显然,边割的权重之和就是它分割的两个连通子图的相似度。
7、最小二分切割是导致两个子图相似度最小的切割方案,又称最小代价切割。它的目标函数如下:
(从这个优化目标中已经能看出图切割任务与聚类非常相似)
通常为了防止切割出一个野点的情况,需给目标函数加上约束条件,尽量使两个子图规模相差不要太大。这叫做归一化最小二分切割。
1.2 拉普拉斯矩阵
下面引出拉普拉斯矩阵:
L=D−WL=D-WL=D−W
由定义可知,拉普拉斯矩阵的行和为0。除此之外这个矩阵还有几个非常有用的性质:
-
有1个特征值为0,它对应的特征向量元素全是1。
L∗1⃗=(D−W)∗1⃗=0⃗=0∗1⃗L*\vec1=(D-W)*\vec1=\vec0=0*\vec1L∗1