谱聚类

谱聚类是一种从图论发展而来的聚类方法,适用于各种数据分布。通过构建相似矩阵、拉普拉斯矩阵,并利用Ncut或RatioCut准则进行切图,达到聚类目的。算法流程包括计算相似矩阵、生成拉普拉斯矩阵、提取特征向量并用KMeans进行最终聚类。该方法对稀疏数据和高维数据表现良好,但当目标维度较高时,效率和效果可能会下降。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://www.cnblogs.com/pinard/p/6221564.html
http://www.cnblogs.com/sparkwen/p/3155850.html

谱聚类(Spectral Clustering),对数据分布适应性强,效果优秀,计算量小。

概述

由图论演化而来,在聚类中广泛应用。
将所有样本看做点,点之间用边连接,近的权重大,远的权重小。
通过对数据点切图实现聚类,使类间权重和小,类内权重和大。

无向权重图

结点的度表示与它相连的所有边的权重之和

di=j=1nwij d i = ∑ j = 1 n w i j

度矩阵为对角矩阵,也即第i行权重的和
D=d1d2dn D = ( d 1 ⋯ ⋯ ⋯ d 2 ⋯ ⋮ ⋮ ⋱ ⋯ ⋯ d n )

对于一个子集 AV A ⊂ V ,定义
|A|:=A | A | := 子 集 A 中 点 的 个 数

和子集A的点的度和
vol(A):=iAdi v o l ( A ) := ∑ i ∈ A d i

相似矩阵

主要表达近的权重高,远的权重低。通常用距离度量表示。
构建邻接矩阵的三类方法。 ϵ ϵ -邻近法、K近邻法、全连接法
- ϵ ϵ -邻近法,设置距离阈值,阈值外的取0,阈值内的取1
- K近邻法,选最近的K个计算权重,其他为0,但会导致W非对称,可以通过两种方法解决

        - 两点间有一个被纳入邻近就都保留
        - 两点间都被纳入邻近才保留

- 全连接方法,将所有点两两相连,所有权重都大于0

计算距离时,除了欧氏距离,还可以选择不同的核函数来定义,如多项式核、高斯核、Sigmoid等。实际中,最常用全连接+高斯核

Wij=exp(xixj222σ2) W i j = e x p ( − ‖ x i − x j ‖ 2 2 2 σ 2 )

拉普拉斯矩阵

https://blog.youkuaiyun.com/jianbinzheng/article/details/81229051
拉普拉斯矩阵 L=DW L = D − W ,即度矩阵-邻接矩阵
其性质 fTLf=12Ni,j=1wij(fifj)2 f T L f = 1 2 ∑ i , j = 1 N w i j ( f i − f j ) 2 后续推导会使用到

无向图切图

对无向图G切图,分割为没有相连的k个子图,分别为 A1,A2,...,Ak A 1 , A 2 , . . . , A k ,满足 AiAj=;A1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值