谱聚类(spectral clustering)原理总结

谱聚类是一种强大的无监督学习方法,适用于数据分布复杂和高维场景。它基于图论,通过构建相似矩阵、邻接矩阵和拉普拉斯矩阵,寻找最优切图以实现聚类。算法包括无向权重图、拉普拉斯矩阵、无向图切图(如RatioCut和Ncut)等关键步骤。通过降维和聚类,谱聚类能处理稀疏数据和高维数据,但效果依赖于相似度矩阵。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

谱聚类(spectral clustering)原理总结

谱聚类对数据分布的适应性更强,聚类效果优秀,同时聚类的计算量小且实现起来不复杂。
引用文章链接:https://blog.youkuaiyun.com/yc_1993/article/details/52997074

等周长问题:具体为如何在给定长度的线条下围出一个最大的面积,也可理解为,在给定面积下如何使用更短的线条,而这,也正是谱图聚类想法的端倪,如何在给定一张图,拿出“更短”的边来将其“更好”地切分。而这个“更短”的边,正是对应了spectral clustering中的极小化问题,“更好”地切分,则是对应了spectral clustering中的簇聚类效果。

1、谱聚类概述

​ 谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。

主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

乍一看,这个算法原理的确简单,但是要完全理解这个算法的话,需要对图论中的无向图,线性代数和矩阵分析都有一定的了解。下面我们就从这些需要的基础知识开始,一步步学习谱聚类。

spectral clustering的优点主要有以下:
  1. 过程对数据结构并没有太多的假设要求
  2. 可以通过构造稀疏Similarity Graph,使得对于更大的数据集表现出明显优于其他算法的计算速度。
  3. 由于Spectral Clustering是对图切割处理,不存在像Kmeans将离散的小簇聚合在一起的情况。
  4. 无需像GMM一样对数据概率分布做假设。

2. 谱聚类基础之一:无向权重图

由于谱聚类是基于图论的,因此我们首先温习下图的概念。

对于一个图 G G G我们一般用点的集合 V V V和边的集合 E E E来描述。即为 G ( V , E ) G(V,E) G(V,E),其中 V V V即为数据集里面所有的点 ( v 1 , v 2 , . . . , v n ) ({ {v}_{1}},{ {v}_{2}},...,{ {v}_{n}}) (v1,v2,...,vn)。对于 V V V中的任意两个点,可以有边连接,也可以没有边连接。我们定义权重 w i j { {w}_{ij}} wij为点 v i { {v}_{i}} vi和点 v j { {v}_{j}} vj由于我们是无向图,所以 w i j = w j i { {w}_{ij}}={ {w}_{ji}} wij=wji。对于有边连接的两个点 v i { {v}_{i}} vi v j { {v}_{j}} vj, w i j > 0 { {w}_{ij}>0} wij>0,对于没有边连接的两个点 v i { {v}_{i}} vi v j { {v}_{j}} vj, w i j = 0 { {w}_{ij}=0} wij=0。对于图中的任意一个点 v i { {v}_{i}} vi它的度 d i { {d}_{i}} di定义为和它相连的所有边的权重之和,即:

d i = ∑ j = 1 n w i j { {d}_{i}}=\sum\limits_{j=1}^{n}{ { {w}_{ij}}} di=j=1nwij

利用每个点度的定义,我们可以得到一个nxn的度矩阵 D D D它是一个对角矩阵,只有主对角线有值,对应第i行的第i个点的度数,定义如下: D = ( d 1 … … … d 2 … ⋮ ⋮ ⋱ … … d n ) D=\left( \begin{matrix} { {d}_{1}} & \ldots & \ldots \\ \ldots & { {d}_{2}} & \ldots \\ \vdots & \vdots & \ddots \\ \ldots & \ldots & { {d}_{n}} \\ \end{matrix} \right) D=d1d2dn

利用 所有点之间的权重值,我们可以得到图的邻接矩阵 W W W,它也是一个 n ∗ n n*n nn的矩阵,第i行的第j个值对应我们的权重 w i j {}{ {w}_{ij}} wij除此之外,对于点集 V V V的的一个子集 A ⊂ V A⊂V AV,我们定义:

∣ A ∣ |A| A:子集A中点的个数 v o l ( A ) = ∑ i ∈ A   d i vol(A)=\underset{i\in A}{\mathop{\sum }}\,{ {d}_{i}} vol(A)=iAdi

3. 谱聚类基础之二:相似矩阵

对于邻接矩阵 W W W,它是由任意两点之间的权重值 w i j { {w}_{ij}} wij

组成的矩阵。通常我们可以自己输入权重,但是在谱聚类中,我们只有数据点的定义,并没有直接给出这个邻接矩阵,那么怎么得到这个邻接矩阵呢?

基本思想,距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,不过这仅仅是定性,我们需要定量的权重值。一般来说,我们可以通过样本点距离度量的相似矩阵 S S S来获得邻接矩阵 W W W

构建邻接矩阵 W W W的方法有三类。 ϵ − ϵ- ϵ邻近法,K邻近法和全连接法。

对于 ϵ − ϵ- ϵ邻近法,它设置了一个距离阈值 ϵ ϵ ϵ然后用欧式距离 S i j { {S}_{ij}} Sij度量任意两点 x i 和 { {x}_{i}}和 xi x j { {x}_{j}} xj的距离。即相似矩阵的 S i j = ∣ ∣ x i − x j ∣ ∣ 2 2 { {S}_{ij}}=||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2} Sij=xixj22, 然后根据 S i j { {S}_{ij}} Sij ϵ ϵ ϵ的大小关系,来定义邻接矩阵 W W W如下:

w i j = { 0 s i j > ε ε s i j < ε { {w}_{ij}}=\left\{ \begin{matrix} 0 & { {s}_{ij}}>\varepsilon \\ \varepsilon & { {s}_{ij}}<\varepsilon \\ \end{matrix} \right. wij={ 0εsij>εsij<ε

从上式可见,两点间的权重要不就是 ϵ ϵ ϵ,要不就是0,没有其他的信息了。距离远近度量很不精确,因此在实际应用中,我们很少使用ϵ-邻近法。

第二种定义邻接矩阵 W W W的方法是K邻近法,利用KNN算法遍历所有的样本点,取每个样本最近的k个点作为近邻,只有和样本距离最近的k个点之间的 w i j > 0 { {w}_{ij}}>0 wij>0。但是这种方法会造成重构之后的邻接矩阵 W W W非对称,我们后面的算法需要对称邻接矩阵。为了解决这种问题,一般采取下面两种方法之一:

第一种K邻近法是只要一个点在另一个点的K近邻中,则保留 S i j { {S}_{ij}} Sij

w i j = w j i = { 0 x i ∉ K N N ( x j ) a n d x j ∉ K N N ( x i ) exp ⁡ ( − ∣ ∣ x i − x j ∣ ∣ 2 2 2 σ 2 ) x i ∈ K N N ( x j ) o r x j ∈ K N N ( x i ) { {w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})and{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})or{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right. wij=wji={ 0exp(2σ2xixj22)xi/KNN(xj)andxj/KNN(xi)xiKNN(xj)orxjKNN(xi)

第二种K邻近法是必须两个点互为K近邻中,才能保留 S i j { {S}_{ij}} Sij

w i j = w j i = { 0 x i ∉ K N N ( x j ) o r x j ∉ K N N ( x i ) exp ⁡ ( − ∣ ∣ x i − x j ∣ ∣ 2 2 2 σ 2 ) x i ∈ K N N ( x j ) a n d x j ∈ K N N ( x i ) { {w}_{ij}}={ {w}_{ji}}=\left\{ \begin{matrix} 0 & { {x}_{i}}\notin KNN({ {x}_{j}})or{ {x}_{j}}\notin KNN({ {x}_{i}}) \\ \exp (-\frac{||{ {x}_{i}}-{ {x}_{j}}||_{2}^{2}}{2{ {\sigma }^{2}}}) & { {x}_{i}}\in KNN({ {x}_{j}})and{ {x}_{j}}\in KNN({ {x}_{i}}) \\ \end{matrix} \right. wij=wji={ 0exp(2σ2xixj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值