谱聚类(spectral clustering)原理总结
谱聚类对数据分布的适应性更强,聚类效果优秀,同时聚类的计算量小且实现起来不复杂。
引用文章链接:https://blog.youkuaiyun.com/yc_1993/article/details/52997074
等周长问题:具体为如何在给定长度的线条下围出一个最大的面积,也可理解为,在给定面积下如何使用更短的线条,而这,也正是谱图聚类想法的端倪,如何在给定一张图,拿出“更短”的边来将其“更好”地切分。而这个“更短”的边,正是对应了spectral clustering中的极小化问题,“更好”地切分,则是对应了spectral clustering中的簇聚类效果。
1、谱聚类概述
谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。
主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。
乍一看,这个算法原理的确简单,但是要完全理解这个算法的话,需要对图论中的无向图,线性代数和矩阵分析都有一定的了解。下面我们就从这些需要的基础知识开始,一步步学习谱聚类。
spectral clustering的优点主要有以下:
- 过程对数据结构并没有太多的假设要求
- 可以通过构造稀疏Similarity Graph,使得对于更大的数据集表现出明显优于其他算法的计算速度。
- 由于Spectral Clustering是对图切割处理,不存在像Kmeans将离散的小簇聚合在一起的情况。
- 无需像GMM一样对数据概率分布做假设。
2. 谱聚类基础之一:无向权重图
由于谱聚类是基于图论的,因此我们首先温习下图的概念。
对于一个图 G G G我们一般用点的集合 V V V和边的集合 E E E来描述。即为 G ( V , E ) G(V,E) G(V,E),其中 V V V即为数据集里面所有的点 ( v 1 , v 2 , . . . , v n ) ({ {v}_{1}},{ {v}_{2}},...,{ {v}_{n}}) (v1,v2,...,vn)。对于 V V V中的任意两个点,可以有边连接,也可以没有边连接。我们定义权重 w i j { {w}_{ij}} wij为点 v i { {v}_{i}} vi和点 v j { {v}_{j}} vj由于我们是无向图,所以 w i j = w j i { {w}_{ij}}={ {w}_{ji}} wij=wji。对于有边连接的两个点 v i { {v}_{i}} vi和 v j { {v}_{j}} vj, w i j > 0 { {w}_{ij}>0} wij>0,对于没有边连接的两个点 v i { {v}_{i}} vi和 v j { {v}_{j}} vj, w i j = 0 { {w}_{ij}=0} wij=0。对于图中的任意一个点 v i { {v}_{i}} vi它的度 d i { {d}_{i}} di定义为和它相连的所有边的权重之和,即:
d i = ∑ j = 1 n w i j { {d}_{i}}=\sum\limits_{j=1}^{n}{ { {w}_{ij}}} di=j=1∑nwij
利用每个点度的定义,我们可以得到一个nxn的度矩阵 D D D它是一个对角矩阵,只有主对角线有值,对应第i行的第i个点的度数,定义如下: D = ( d 1 … … … d 2 … ⋮ ⋮ ⋱ … … d n ) D=\left( \begin{matrix} { {d}_{1}} & \ldots & \ldots \\ \ldots & { {d}_{2}} & \ldots \\ \vdots & \vdots & \ddots \\ \ldots & \ldots & { {d}_{n}} \\ \end{matrix} \right) D=⎝⎜⎜⎜⎛d1…⋮……d2⋮………⋱dn⎠⎟⎟⎟⎞
利用 所有点之间的权重值,我们可以得到图的邻接矩阵 W W W,它也是一个 n ∗ n n*n n∗n的矩阵,第i行的第j个值对应我们的权重 w i j {}{ {w}_{ij}} wij除此之外,对于点集 V V V的的一个子集 A ⊂ V A⊂V A⊂V,我们定义:
∣ A ∣ |A| ∣A∣:子集A中点的个数 v o l ( A ) = ∑ i ∈ A d i vol(A)=\underset{i\in A}{\mathop{\sum }}\,{ {d}_{i}} vol(A)=i∈A∑di
3. 谱聚类基础之二:相似矩阵
对于邻接矩阵 W W W,它是由任意两点之间的权重值 w i j { {w}_{ij}} wij
组成的矩阵。通常我们可以自己输入权重,但是在谱聚类中,我们只有数据点的定义,并没有直接给出这个邻接矩阵,那么怎么得到这个邻接矩阵呢?
基本思想,距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,不过这仅仅是定性,我们需要定量的权重值。一般来说,我们可以通过样本点距离度量的相似矩阵 S S S来获得邻接矩阵 W W W。
构建邻接矩阵 W W W的方法有三类。 ϵ − ϵ- ϵ−邻近法,K邻近法和全连接法。
对于 ϵ − ϵ- ϵ−邻近法,它设置了一个距离阈值 ϵ ϵ ϵ然后用欧式距离 S i j { {S}_{ij}} Sij度量任意两点 x i 和 { {x}_{i}}和 xi和 x j { {x}_{j}} xj的距离。即相似矩阵的 S i j = ∣ ∣ x i − x j ∣ ∣ 2 2 { {S}_{ij}}=||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2} Sij=∣∣xi−xj∣∣22, 然后根据 S i j { {S}_{ij}} Sij和 ϵ ϵ ϵ的大小关系,来定义邻接矩阵 W W W如下:
w i j = { 0 s i j > ε ε s i j < ε { {w}_{ij}}=\left\{ \begin{matrix} 0 & { {s}_{ij}}>\varepsilon \\ \varepsilon & { {s}_{ij}}<\varepsilon \\ \end{matrix} \right. wij={ 0εsij>εsij<ε
从上式可见,两点间的权重要不就是 ϵ ϵ ϵ,要不就是0,没有其他的信息了。距离远近度量很不精确,因此在实际应用中,我们很少使用ϵ-邻近法。
第二种定义邻接矩阵 W W W的方法是K邻近法,利用KNN算法遍历所有的样本点,取每个样本最近的k个点作为近邻,只有和样本距离最近的k个点之间的 w i j > 0 { {w}_{ij}}>0 wij>0。但是这种方法会造成重构之后的邻接矩阵 W W W非对称,我们后面的算法需要对称邻接矩阵。为了解决这种问题,一般采取下面两种方法之一:
第一种K邻近法是只要一个点在另一个点的K近邻中,则保留 S i j { {S}_{ij}} Sij
w i j = w j i = { 0 x i ∉ K N N ( x j ) a n d x j ∉ K N N ( x i ) exp ( − ∣ ∣ x i − x j ∣ ∣ 2 2 2 σ 2 ) x i ∈ K N N ( x j ) o r x j ∈ K N N ( x i ) { {w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})and{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})or{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right. wij=wji={ 0exp(−2σ2∣∣xi−xj∣∣22)xi∈/KNN(xj)andxj∈/KNN(xi)xi∈KNN(xj)orxj∈KNN(xi)
第二种K邻近法是必须两个点互为K近邻中,才能保留 S i j { {S}_{ij}} Sij
w i j = w j i = { 0 x i ∉ K N N ( x j ) o r x j ∉ K N N ( x i ) exp ( − ∣ ∣ x i − x j ∣ ∣ 2 2 2 σ 2 ) x i ∈ K N N ( x j ) a n d x j ∈ K N N ( x i ) { {w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})or{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})and{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right. wij=wji={ 0exp(−2σ2∣∣xi−xj∣∣