51、聚类算法：K-means与DBSCAN深度解析

心事收容所

于 2025-09-13 15:50:37 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁算法的实战智慧文章标签： K-means DBSCAN 聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/i3j4k5/article/details/153454170

解锁算法的实战智慧专栏收录该内容

85 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法：K-means与DBSCAN深度解析

1. K-means算法概述

K-means是一种基于质心的硬聚类方法。不过，它在高维空间中存在一定的局限性。在d维空间（d >> 10）里，在合理的数据分布假设下，最近邻问题会变得难以定义。因为在高维情况下，目标点到最近邻和最远邻的距离之比几乎为1。例如，若点均匀分布（如在网格上），那么任意质心的2d个最近点到它的距离都相同，这就导致点的最近邻定义模糊。

简单来说，对于高维数据集，除非聚类分布恰好是球形，否则包含所有点所需的球体体积会非常大，很可能会有很大一部分相互重叠。而且，对于接近均匀分布的数据集，当使用多个质心时，寻找最近质心的结果可能不准确，这会导致收敛速度变慢，因为一些点可能会在几乎等距离的不同质心之间来回分配。

所以，K-means仅适用于低至中等维度（最多约20维）的数据集，且这些数据集的聚类形状可以用超球体精确近似。

2. K-means性能分析

假设我们有一个包含n个点的数据集，每个点属于d维空间（即每个点可以表示为d个实数的元组），我们要将这些点划分为k个不同的聚类。对K-means算法的每个子步骤进行分析：
|步骤|时间复杂度|说明|
| ---- | ---- | ---- |
|随机初始化|O(n d)|为n个点中的每个点分配d个坐标|
|初始化聚类索引|O(n)|为每个点初始化聚类索引|
|主循环|重复m次，m为最大迭代次数|不断迭代更新聚类|
|分配点到质心|O(k n d)|为每个点计算k个d维（平方）距离，每次计算需要O(d)操作|
|比较两

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。