文章目录
简介
聚类(Clustering)是数据分析中最为广泛使用的技术之一,其广泛应用于统计学、计算机科学、生物、社会科学等。本文主要介绍一类重要的聚类算法,谱聚类(Spectral Clustering)。
谱聚类的主要思想是把所有的数据看做空间中的点。给定这些数据点之间的相似性度量,那么我们就可以构造一张相似图:如果两个点之间相似度为正(或者大于一定门限),那么它们之间就有边相连,且将其设置为边的权重。通过对相似图进行切割,让切割后不同子图之间边的权重之和尽可能低(意味着分属不同簇的点之间尽可能地不相似),而子图内边的权重之和尽可能地高(意味着同属同一簇的点之间尽可能地相似),从而达到聚类的目的。
相比传统的聚类算法,如k-means,谱聚类更容易实现,可以利用标准的线性代数软件高效求解,且往往效果更好。
1. 准备工作
在正式介绍谱聚类算法之前,我们需要一些必要的准备工作,以帮助我们更好地理解谱聚类算法及其背后的原理。我们先介绍图相关的一些基本概念和重要性质,然后介绍如何将数据点与图结合起来。
1.1 邻接矩阵
给定一个无向图 G = ( V , E ) G=(V,E) G=(V,E),其中 V = { v 1 , ⋯ , v n } V=\left\{ v_1,\cdots,v_n\right\} V={
v1,⋯,vn}是顶点的集合。我们用 W W W表示其邻接矩阵(Adjacency Matrix),其中
w i , j = { 1 或权值 , if ( v i , v j ) ∈ E 0 , otherwise (1-1-1) w_{i,j} = \left\{ \begin{aligned} &1~\text{或权值}&,&~\text{if}~(v_i,v_j) \in E \\ &0&,&~\text{otherwise} \end{aligned} \tag{1-1-1} \right. wi,j={
1 或权值0,, if (vi,vj)∈E otherwise(1-1-1)
也就是说,如果顶点 v i v_i vi和顶点 v j v_j vj之间有边连接, w i , j w_{i,j} wi,j等于1(不加权的图)或者等于该边上的权值(加权图);反之,如果顶点 v i v_i vi和顶点 v j v_j vj之间没有边连接, w i , j w_{i,j} wi,j等于0。需要注意的是,因为图 G G G是一个无向图,所以 w i , j = w j , i w_{i,j}=w_{j,i} wi,j=wj,i,即 W W W是一个对称矩阵。
1.2 度矩阵
给定一个无向图 G = ( V , E ) G=(V,E) G=(V,E),我们用 D D D表示其度矩阵(Degree Matrix),其中
d i , j = { ∑ j = 1 n w i , j , if i = j 0 , otherwise (1-2-1) d_{i,j} = \left\{ \begin{aligned} &\sum_{j=1}^{n} w_{i,j}&,&~\text{if}~i=j \\ &0&,&~\text{otherwise} \end{aligned} \tag{1-2-1} \right. di,j=⎩⎪⎪⎨⎪⎪⎧j=1∑nwi,j0,, if i=j otherwise(1-2-1)
为方便起见,我们将 d i , i d_{i,i} di,i记作 d i d_i di。从上式可以看出,度矩阵 D D D是一个对角矩阵,即
D = [ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ] (1-2-2) D = \begin{bmatrix} d_1 &0&\cdots& 0 \\ 0&d_2&\cdots& 0 \\ \vdots &\vdots & \ddots& \vdots \\ 0 & 0 & \cdots & d_n \end{bmatrix} \tag{1-2-2} D=⎣⎢⎢⎢⎡d10⋮00d2⋮0⋯⋯⋱⋯00⋮dn⎦⎥⎥⎥⎤(1-2-2)
1.3 拉普拉斯矩阵
1.3.1 非归一化拉普拉斯矩阵
非归一化拉普拉斯矩阵(Unnormalized Laplacian Matrix)的定义为 L = D − W (1-3-1) L=D-W \tag{1-3-1} L=D−W(1-3-1)非归一化拉普拉斯矩阵 L L L有很多重要的性质:
(1)对任意向量 f ∈ R n f \in \mathbb{R}^{n} f∈Rn, 我们有 f T L f = 1 2 ∑ i = 1 n ∑ j = 1 n w i , j ( f i − f j ) 2 (1-3-2) f^{T}Lf = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \tag{1-3-2} fTLf=21i=1∑nj=1∑nwi,j(fi−fj)2(1-3-2)(2) L L L是对称半正定矩阵
(3) L L L的最小特征值为0,其对应的特征向量为向量 1 = [ 1 , ⋯ , 1 ] T \mathbb{1}=[1,\cdots,1]^{T} 1=[1,⋯,1]T
(4) L L L有 n n n个非负的实数值特征值,即 0 = λ 1 ≤ λ 2 ≤ ⋯ λ n 0=\lambda_1 \leq \lambda_2 \leq \cdots \lambda_n 0=λ1≤λ2≤⋯λn
证明:
(1)
f T L f = f T D f − f T W f = ∑ i = 1 n d i f i 2 − ∑ i = 1 n ∑ j = 1 n w i , j f i f j = 1 2 ( ∑ i = 1 n d i f i 2 − 2 ∑ i = 1 n ∑ j = 1 n w i , j f i f j + ∑ j = 1 n d j f j 2 ) = 1 2 ( ∑ i = 1 n ∑ j = 1 n w i , j f i 2 − 2 ∑ i = 1 n ∑ j = 1 n w i , j f i f j + ∑ i = 1 n ∑ j = 1 n w i , j f j 2 ) = 1 2 ∑ i = 1 n ∑ j = 1 n w i , j ( f i − f j ) 2 (1-3-3) \begin{aligned} f^{T}Lf & = f^{T}Df - f^{T}Wf \\ & = \sum_{i=1}^{n} d_i f_{i}^2 - \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} \\ & = \frac{1}{2} \left( \sum_{i=1}^{n} d_i f_{i}^2 - 2 \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} + \sum_{j=1}^{n} d_j f_{j}^2 \right) \\ & = \frac{1}{2} \left( \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i}^2 - 2 \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} + \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{j}^2 \right) \\ & = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \end{aligned} \tag{1-3-3} fTLf=fTDf−fTWf=i=1∑ndifi2−i=1∑nj=1∑nwi,jfifj=21(i=1∑ndifi2−2i=1∑nj=1∑nwi,jfifj+j=1∑ndjfj2)=21(i=1∑nj=1∑nwi,jfi2−2i=1∑nj=1∑nwi,jfifj+i=1∑nj=1∑nwi,jfj2)=21i=1∑nj=1∑nwi,j(fi−fj)2(1-3-3)
(2)因为 D D D和 W W W都是对称矩阵,所以 L L L也是对称矩阵。因为对于任意的向量 f ∈ R n f \in \mathbb{R}^{n} f∈Rn,我们都有 f T L f = 1 2 ∑ i = 1 n ∑ j = 1 n w i , j ( f i − f j ) 2 ≥ 0 f^{T}Lf = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \geq 0 fTLf=21∑i=1n∑j=1nwi,j(fi−fj)2≥0,所以 L L L是半正定矩阵。
(3):因为 L L L是对称半正定矩阵,所以其特征值非负。很显然, L 1 = D 1 − W 1 = 01 L \mathbb{1} = D \mathbb{1} - W \mathbb{1} = 0 \mathbb{1} L1=D1−W1=01,所以0是 L L L的最小特征值, 1 \mathbb{1} 1为其对应的特征向量。
(4):由(1)-(3)可得。
1.3.2 归一化拉普拉斯矩阵
归一化拉普拉斯矩阵(Normalized Laplacian Matrix)的定义一般有两种:
L s y m = D − 1 / 2 L D − 1 / 2 = I − D − 1 / 2 W D − 1 / 2 (1-3-4) L_{\rm sym} = D^{-1/2} L D^{-1/2} = I-D^{-1/2}WD^{-1/2} \tag{1-3-4} Lsym=D−1/2LD−1/2=I−D−1/2WD−1/2(1-3-4) L r w = D − 1 L = I − D − 1 W (1-3-5) L_{\rm rw} = D^{-1}L = I-D^{-1}W \tag{1-3-5} Lrw=D−1L=I−D−1W(1-3-5)其中 L s y m L_{\rm sym} Lsym是一个对称矩阵, L r w L_{\rm rw} Lrw和随机游走(Random Walk)密切相关( L r w L_{\rm rw} Lrw不再是一个对称阵)。
和非归一化拉普拉斯矩阵 L L L一样,归一化拉普拉斯矩阵 L s y m L_{\rm sym} Lsym和 L r w L_{\rm rw} Lrw有着和非归一化拉普拉斯矩阵 L L L类似的重要性质:
(1):对任意向量 f ∈ R n f \in \mathbb{R}^{n} f∈Rn, 我们有 f T L s y m f = 1 2 ∑ i = 1 n ∑ j = 1 n w i , j ( f i d i − f j d j ) 2 (1-3-6) f^{T}L_{\rm sym}f = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} \left(\frac{f_i}{\sqrt{d_i}}-\frac{f_j}{\sqrt{d_j}} \right)^2 \tag{1-3-6} fTLsymf=21i=1∑nj=1∑nwi,j

本文深入讲解谱聚类算法,包括其基本概念、不同类型的谱聚类算法及其背后的数学原理,并探讨了从图形切割角度理解算法的方法。
最低0.47元/天 解锁文章
8567

被折叠的 条评论
为什么被折叠?



