目录
4. GMM(高斯混合模型):假设数据由不同“正态分布”生成
1. K-means 聚类:按“标准答案”分组
- 核心思想:先假设分好若干组(比如老师说分成3组),再根据已有分组调整成员。
- 例子:
小学老师让全班同学(数据点)自由坐,但要求:- 每组人数相同;
- 每组同学的平均身高尽量接近;
- 调整座位直到满足条件。
- 过程:老师先随机选3个学生当“组长”,其他同学找离自己最近的组长坐下;然后计算每组平均身高,如果某个组长太高或太矮,就换到更接近平均身高的组里。
- 特点:需要提前指定分多少组(K值),适合数据分布像“球形”的(比如学生身高相近)。
2. 层次聚类:从细节到整体分类
- 核心思想:像拼图一样,先按最小差异合并数据点,逐步形成更大的类别。
- 例子:
收集全国所有城市的温度、人口、经济数据,想按“城市类型”分类:- 先找出温度最接近的两个城市合并(如三亚和湛江);
- 找出下一组最接近的城市合并(如北京和天津);
- 重复这个过程,直到所有城市被合并成一个树状图(称为“ dendrogram”);
- 根据树状图剪枝,决定最终分成几类(比如5类)。
- 特点:不需要提前指定组数,适合探索性分析,但计算量大。
3. DBSCAN 聚类:自动识别“异常值”
- 核心思想:用“邻居密度”判断是否属于同一类,孤立的点会被单独分出来。
- 例子:
在公园的人群中识别游客类型:- 定义“邻居”:距离你2米内的人;
- 如果一个人周围至少有5个人(核心点),和他密度相似的人会被归为一群(如家庭游客、情侣);
- 如果有人周围不到5人(边界点),但靠近某个核心点的群体,则加入该群体;
- 孤零零一个人(如晨跑者)会被标记为“异常值”。
- 特点:能发现非球形簇(如长条形的散步人群),自动过滤噪声点。
4. GMM(高斯混合模型):假设数据由不同“正态分布”生成
- 核心思想:认为数据是由多个“潜在类别”混合而成,每个类别内部服从正态分布(对称的钟形曲线)。
- 例子:
学校考试分数分布:- 假设成绩由“学霸组”“普通组”“学渣组”混合;
- 每组分数服从正态分布(如学霸组分值集中在90-100分,普通组70-85分);
- 通过算法自动确定每组人数和分布参数。
- 特点:适合数据有明显重叠或不同分布的场景,但假设数据必须符合正态分布。
5. Mean-Shift 聚类:寻找“自然聚集中心”
- 核心思想:像侦探一样,先随便找一个点作为“嫌疑中心”,然后不断移动它到周围最密集的区域,直到找到无法再移动的位置。
- 例子:
在夜市中找到“热门小吃摊位聚集区”:- 随机选一个摊位A,观察周围10米内有多少顾客;
- 向顾客最多的方向移动摊位A,直到不能再移动(找到局部最优);
- 对所有未被分配的摊位重复此过程,最终形成多个聚集区。
- 特点:能发现任意形状的簇,但计算复杂度高,不适合大数据集。
算法对比表(附适用场景)
算法 | 类似场景 | 优点 | 缺点 |
---|---|---|---|
K-means | 分班(固定班级数) | 计算快,适合球形数据 | 需预设K值,对噪声敏感 |
层次聚类 | 生物物种分类(自底向上) | 可视化直观 | 计算慢,不适合大数据 |
DBSCAN | 社交网络分析(识别孤立用户) | 自动处理噪声 | 对参数敏感 |
GMM | 成绩分段(正态分布假设) | 模型灵活 | 依赖数据分布假设 |
Mean-Shift | 天气模式识别 | 无需预设K值 | 计算复杂度高 |
一句话总结
- K-means:老师让你分成固定小组,按身高调座位。
- DBSCAN:警察抓小偷,自动识别混在人群中的可疑分子。
- 层次聚类:考古学家拼碎片,先拼小块再拼大图。
- GMM:医生诊断病人,假设病情由多种病因混合导致。