轻松入门：常见聚类算法及其日常生活中的通俗实例

何遇mirror

于 2025-03-07 07:15:00 发布

阅读量797

点赞数 7

CC 4.0 BY-SA版权

分类专栏：聚类分析文章标签：算法聚类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43298211/article/details/146071080

聚类分析专栏收录该内容

3 篇文章

订阅专栏

目录

1. K-means 聚类：按“标准答案”分组

2. 层次聚类：从细节到整体分类

3. DBSCAN 聚类：自动识别“异常值”

4. GMM（高斯混合模型）：假设数据由不同“正态分布”生成

5. Mean-Shift 聚类：寻找“自然聚集中心”

算法对比表（附适用场景）

一句话总结

1. K-means 聚类：按“标准答案”分组

核心思想：先假设分好若干组（比如老师说分成3组），再根据已有分组调整成员。
例子：
小学老师让全班同学（数据点）自由坐，但要求：
1. 每组人数相同；
2. 每组同学的平均身高尽量接近；
3. 调整座位直到满足条件。
- 过程：老师先随机选3个学生当“组长”，其他同学找离自己最近的组长坐下；然后计算每组平均身高，如果某个组长太高或太矮，就换到更接近平均身高的组里。
- 特点：需要提前指定分多少组（K值），适合数据分布像“球形”的（比如学生身高相近）。

2. 层次聚类：从细节到整体分类

核心思想：像拼图一样，先按最小差异合并数据点，逐步形成更大的类别。
例子：
收集全国所有城市的温度、人口、经济数据，想按“城市类型”分类：
1. 先找出温度最接近的两个城市合并（如三亚和湛江）；
2. 找出下一组最接近的城市合并（如北京和天津）；
3. 重复这个过程，直到所有城市被合并成一个树状图（称为“ dendrogram”）；
4. 根据树状图剪枝，决定最终分成几类（比如5类）。
- 特点：不需要提前指定组数，适合探索性分析，但计算量大。

3. DBSCAN 聚类：自动识别“异常值”

核心思想：用“邻居密度”判断是否属于同一类，孤立的点会被单独分出来。
例子：
在公园的人群中识别游客类型：
1. 定义“邻居”：距离你2米内的人；
2. 如果一个人周围至少有5个人（核心点），和他密度相似的人会被归为一群（如家庭游客、情侣）；
3. 如果有人周围不到5人（边界点），但靠近某个核心点的群体，则加入该群体；
4. 孤零零一个人（如晨跑者）会被标记为“异常值”。
- 特点：能发现非球形簇（如长条形的散步人群），自动过滤噪声点。

4. GMM（高斯混合模型）：假设数据由不同“正态分布”生成

核心思想：认为数据是由多个“潜在类别”混合而成，每个类别内部服从正态分布（对称的钟形曲线）。
例子：
学校考试分数分布：
1. 假设成绩由“学霸组”“普通组”“学渣组”混合；
2. 每组分数服从正态分布（如学霸组分值集中在90-100分，普通组70-85分）；
3. 通过算法自动确定每组人数和分布参数。
- 特点：适合数据有明显重叠或不同分布的场景，但假设数据必须符合正态分布。

5. Mean-Shift 聚类：寻找“自然聚集中心”

核心思想：像侦探一样，先随便找一个点作为“嫌疑中心”，然后不断移动它到周围最密集的区域，直到找到无法再移动的位置。
例子：
在夜市中找到“热门小吃摊位聚集区”：
1. 随机选一个摊位A，观察周围10米内有多少顾客；
2. 向顾客最多的方向移动摊位A，直到不能再移动（找到局部最优）；
3. 对所有未被分配的摊位重复此过程，最终形成多个聚集区。
- 特点：能发现任意形状的簇，但计算复杂度高，不适合大数据集。

算法对比表（附适用场景）

算法	类似场景	优点	缺点
K-means	分班（固定班级数）	计算快，适合球形数据	需预设K值，对噪声敏感
层次聚类	生物物种分类（自底向上）	可视化直观	计算慢，不适合大数据
DBSCAN	社交网络分析（识别孤立用户）	自动处理噪声	对参数敏感
GMM	成绩分段（正态分布假设）	模型灵活	依赖数据分布假设
Mean-Shift	天气模式识别	无需预设K值	计算复杂度高

一句话总结

K-means：老师让你分成固定小组，按身高调座位。
DBSCAN：警察抓小偷，自动识别混在人群中的可疑分子。
层次聚类：考古学家拼碎片，先拼小块再拼大图。
GMM：医生诊断病人，假设病情由多种病因混合导致。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

何遇mirror 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。