机器学习算法(六)K-Means聚类、层次聚类、密度聚类、谱聚类

本文介绍聚类算法,包括K-means、密度聚类(DBSCAN)、层次聚类及谱聚类等。K-means通过最小化均方误差实现聚类;DBSCAN对噪声不敏感;层次聚类可灵活调整聚类数;谱聚类通过相似度矩阵转换样本特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要简述聚类算法族。聚类算法与前面文章的算法不同,它们属于非监督学习。

1、K-means聚类

记k个簇中心,为μ1,μ2,…,μk,每个簇的样本数为Ni
假设每个簇中的数据都满足分布N(μi,σ),即方差相同,均值不同的GMM。
则每一个样本点的分布函数为:

ϕi=12πσ2exp((xiμ)22σ2)

可求出其似然函数
Lμ=ϕ1×ϕ2×...

且可求其对数似然为(以三个点为例)
lμ=12j=1kNji=1(xIμj)2

求驻点有:
μj=1Nji=1Nxi

因此,以均方误差为目标函数的时候肯定是收敛的。用其他函数作为目标函数不一定收敛。

注:k的选择采用“手肘法”,注意不是交叉验证,它连标签都没有!

2、密度聚类

代表算法:DBSCAN

K-means对噪声敏感,密度聚类对噪声不敏感。

3、层次聚类

按层次聚类,由上至下或由下至上,优点是可以任意选择聚类数

4、谱聚类

Step1:对样本点俩俩计算相似度Sij,组成相似度矩阵,又称权值矩阵

Wn×n=[Sij]

Step2:将Wn×n的主对角线元素全部置为0,把每行元素的值相加,第i行的和为di。将di作为主对角线元素组成Dn×n

Step3:令

Ln×n=Dn×nWn×n
,称为拉普拉斯矩
阵。这个L是半正定的,它最小的特征值为0。

Step4:求L矩阵的特征值和特征向量,将所有特征值从小大排列,取出前k个(聚类数为k),将其对应的特征向量如下排列:

[u1,u2,...,uk]
该矩阵的第一行即为第一个样本点转换后的特征,第二行为第二个样本点转换后的特征。将这些特征扔入K_means,其聚类结果即是谱聚类结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值