https://www.cnblogs.com/pinard/p/6221564.html
http://www.cnblogs.com/sparkwen/p/3155850.html
谱聚类(Spectral Clustering),对数据分布适应性强,效果优秀,计算量小。
概述
由图论演化而来,在聚类中广泛应用。
将所有样本看做点,点之间用边连接,近的权重大,远的权重小。
通过对数据点切图实现聚类,使类间权重和小,类内权重和大。
无向权重图
结点的度表示与它相连的所有边的权重之和
度矩阵为对角矩阵,也即第i行权重的和
对于一个子集 A⊂V A ⊂ V ,定义
和子集A的点的度和
相似矩阵
主要表达近的权重高,远的权重低。通常用距离度量表示。
构建邻接矩阵的三类方法。 ϵ ϵ -邻近法、K近邻法、全连接法
- ϵ ϵ -邻近法,设置距离阈值,阈值外的取0,阈值内的取1
- K近邻法,选最近的K个计算权重,其他为0,但会导致W非对称,可以通过两种方法解决
- 两点间有一个被纳入邻近就都保留
- 两点间都被纳入邻近才保留
- 全连接方法,将所有点两两相连,所有权重都大于0
计算距离时,除了欧氏距离,还可以选择不同的核函数来定义,如多项式核、高斯核、Sigmoid等。实际中,最常用全连接+高斯核
Wij=exp(−‖xi−xj‖222σ2) W i j = e x p ( − ‖ x i − x j ‖ 2 2 2 σ 2 )
拉普拉斯矩阵
见https://blog.youkuaiyun.com/jianbinzheng/article/details/81229051
拉普拉斯矩阵 L=D−W L = D − W ,即度矩阵-邻接矩阵
其性质 fTLf=12∑Ni,j=1wij(fi−fj)2 f T L f = 1 2 ∑ i , j = 1 N w i j ( f i − f j ) 2 后续推导会使用到
无向图切图
对无向图G切图,分割为没有相连的k个子图,分别为 A1,A2,...,Ak A 1 , A 2 , . . . , A k ,满足 Ai∩Aj=∅;A1