各种聚类方法的聚类思想介绍及其优缺点

最新推荐文章于 2025-01-22 19:23:39 发布

QianMo-WXJ

最新推荐文章于 2025-01-22 19:23:39 发布

阅读量2k

点赞数 37

分类专栏：知识补充文章标签：聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangxiaojie6688/article/details/140599958

版权

聚类是一种无监督学习方法，旨在将数据集中的样本划分为若干个组，使得同一组内的样本相似度最大，而不同组之间的样本相似度最小。以下是几种常见的聚类方法及其思想、优缺点的介绍：

1. K-means 聚类

聚类思想：

K-means 将数据分成 K 个簇，每个簇由一个中心（质心）代表。
算法通过迭代优化，使得每个簇中的样本与质心的距离平方和最小。
步骤：
1. 随机初始化 K 个质心。
2. 将每个样本分配到最近的质心。
3. 重新计算每个簇的质心。
4. 重复步骤 2 和 3，直到质心不再变化。

优点：

算法简单、易于实现。
计算速度快，适用于大规模数据集。

缺点：

需要预先指定 K 值。
对初始质心敏感，可能陷入局部最优。
适用于球状簇，不适合非球状簇或大小差异较大的簇。

2. 层次聚类（Hierarchical Clustering）

聚类思想：

层次聚类通过构建树状结构（树状图或树状结构）来进行聚类。
有两种方法：自底向上（凝聚型）和自顶向下（分裂型）。
- 凝聚型：每个样本开始时作为一个簇，不断合并最近的簇。
- 分裂型：所有样本开始时作为一个簇，不断分裂出最不相似的簇。

优点：

不需要预先指定簇的数量。
可以生成聚类树，提供聚类的层次结构。

缺点：

计算复杂度高，不适合大规模数据集。
对噪声和离群点敏感。

3. 密度聚类（DBSCAN）

聚类思想：

DBSCAN 通过高密度区域的连通性定义簇。
算法通过两个参数：ε（epsilon&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

QianMo-WXJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。