轻松入门:常见聚类算法及其日常生活中的通俗实例

目录

1. K-means 聚类:按“标准答案”分组

​2. 层次聚类:从细节到整体分类

​3. DBSCAN 聚类:自动识别“异常值”​

​4. GMM(高斯混合模型):假设数据由不同“正态分布”生成

​5. Mean-Shift 聚类:寻找“自然聚集中心”​

​算法对比表(附适用场景)​

​一句话总结


1. K-means 聚类:按“标准答案”分组

  • 核心思想:先假设分好若干组(比如老师说分成3组),再根据已有分组调整成员。
  • 例子:​
    小学老师让全班同学(数据点)自由坐,但要求:
    1. 每组人数相同;
    2. 每组同学的平均身高尽量接近;
    3. 调整座位直到满足条件。
    • 过程:老师先随机选3个学生当“组长”,其他同学找离自己最近的组长坐下;然后计算每组平均身高,如果某个组长太高或太矮,就换到更接近平均身高的组里。
    • 特点:需要提前指定分多少组(K值),适合数据分布像“球形”的(比如学生身高相近)。

2. 层次聚类:从细节到整体分类

  • 核心思想:像拼图一样,先按最小差异合并数据点,逐步形成更大的类别。
  • 例子:​
    收集全国所有城市的温度、人口、经济数据,想按“城市类型”分类:
    1. 先找出温度最接近的两个城市合并(如三亚和湛江);
    2. 找出下一组最接近的城市合并(如北京和天津);
    3. 重复这个过程,直到所有城市被合并成一个树状图(称为“ dendrogram”);
    4. 根据树状图剪枝,决定最终分成几类(比如5类)。
    • 特点:不需要提前指定组数,适合探索性分析,但计算量大。

3. DBSCAN 聚类:自动识别“异常值”​

  • 核心思想:用“邻居密度”判断是否属于同一类,孤立的点会被单独分出来。
  • 例子:​
    在公园的人群中识别游客类型:
    1. 定义“邻居”:距离你2米内的人;
    2. 如果一个人周围至少有5个人(核心点),和他密度相似的人会被归为一群(如家庭游客、情侣);
    3. 如果有人周围不到5人(边界点),但靠近某个核心点的群体,则加入该群体;
    4. 孤零零一个人(如晨跑者)会被标记为“异常值”。
    • 特点:能发现非球形簇(如长条形的散步人群),自动过滤噪声点。

4. GMM(高斯混合模型):假设数据由不同“正态分布”生成

  • 核心思想:认为数据是由多个“潜在类别”混合而成,每个类别内部服从正态分布(对称的钟形曲线)。
  • 例子:​
    学校考试分数分布:
    1. 假设成绩由“学霸组”“普通组”“学渣组”混合;
    2. 每组分数服从正态分布(如学霸组分值集中在90-100分,普通组70-85分);
    3. 通过算法自动确定每组人数和分布参数。
    • 特点:适合数据有明显重叠或不同分布的场景,但假设数据必须符合正态分布。

5. Mean-Shift 聚类:寻找“自然聚集中心”​

  • 核心思想:像侦探一样,先随便找一个点作为“嫌疑中心”,然后不断移动它到周围最密集的区域,直到找到无法再移动的位置。
  • 例子:​
    在夜市中找到“热门小吃摊位聚集区”:
    1. 随机选一个摊位A,观察周围10米内有多少顾客;
    2. 向顾客最多的方向移动摊位A,直到不能再移动(找到局部最优);
    3. 对所有未被分配的摊位重复此过程,最终形成多个聚集区。
    • 特点:能发现任意形状的簇,但计算复杂度高,不适合大数据集。

算法对比表(附适用场景)​

算法类似场景优点缺点
K-means分班(固定班级数)计算快,适合球形数据需预设K值,对噪声敏感
层次聚类生物物种分类(自底向上)可视化直观计算慢,不适合大数据
DBSCAN社交网络分析(识别孤立用户)自动处理噪声对参数敏感
GMM成绩分段(正态分布假设)模型灵活依赖数据分布假设
Mean-Shift天气模式识别无需预设K值计算复杂度高

一句话总结

  • K-means:老师让你分成固定小组,按身高调座位。
  • DBSCAN:警察抓小偷,自动识别混在人群中的可疑分子。
  • 层次聚类:考古学家拼碎片,先拼小块再拼大图。
  • GMM:医生诊断病人,假设病情由多种病因混合导致。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

何遇mirror

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值