KMeans原理和密度聚类

本文深入解析KMeans聚类与密度聚类两大算法。KMeans通过最大化样本点的高斯概率,寻找最佳聚类中心;而密度聚类则通过核心对象及其直接可达点形成聚类,适合处理噪声和不同形状的数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

KMeans聚类:

认为每个聚类都是以聚类中心为均值,方差在各维度相同,且每个聚类的方差也相同,的高斯分布("半径"相等的球形)

给定K,目标是找到K个聚类中心,使得所有样本点的高斯概率之积最大,取log之后变成所有样本距离自己聚类中心的平方之和最小;

初始聚类中心的选择:如KMeans++,依次选择聚类中心时,每次选的点距离其他聚类中心的距离越大,被选中做聚类中心的概率就越大;

K的个数如何确定:elbow(胳膊肘)法,横轴是K,纵轴是误差,选择曲线下降的“拐点”

选中位数做聚类中心,可以降低噪音点带来的影响

 

密度聚类

核心对象:该点固定半径r内的点数超过bar,就是核心对象;

直接可达:核心对象x的半径r范围内的点y们,叫做x到y直接可达(y到x不一定直接可达,因为y不一定是核心对象)

一个聚类,就是从一个未访问的核心对象开始,找所有的从他直接可达的核心对象们,迭代下去直到找不到新的核心对象;这些核心对象和他们半径r里的所有点,构成这个聚类;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值