51、聚类算法:K-means与DBSCAN深度解析

聚类算法:K-means与DBSCAN深度解析

1. K-means算法概述

K-means是一种基于质心的硬聚类方法。不过,它在高维空间中存在一定的局限性。在d维空间(d >> 10)里,在合理的数据分布假设下,最近邻问题会变得难以定义。因为在高维情况下,目标点到最近邻和最远邻的距离之比几乎为1。例如,若点均匀分布(如在网格上),那么任意质心的2d个最近点到它的距离都相同,这就导致点的最近邻定义模糊。

简单来说,对于高维数据集,除非聚类分布恰好是球形,否则包含所有点所需的球体体积会非常大,很可能会有很大一部分相互重叠。而且,对于接近均匀分布的数据集,当使用多个质心时,寻找最近质心的结果可能不准确,这会导致收敛速度变慢,因为一些点可能会在几乎等距离的不同质心之间来回分配。

所以,K-means仅适用于低至中等维度(最多约20维)的数据集,且这些数据集的聚类形状可以用超球体精确近似。

2. K-means性能分析

假设我们有一个包含n个点的数据集,每个点属于d维空间(即每个点可以表示为d个实数的元组),我们要将这些点划分为k个不同的聚类。对K-means算法的每个子步骤进行分析:
|步骤|时间复杂度|说明|
| ---- | ---- | ---- |
|随机初始化|O(n d)|为n个点中的每个点分配d个坐标|
|初始化聚类索引|O(n)|为每个点初始化聚类索引|
|主循环|重复m次,m为最大迭代次数|不断迭代更新聚类|
|分配点到质心|O(k
n d)|为每个点计算k个d维(平方)距离,每次计算需要O(d)操作|
|比较两

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值