聚类算法全景解读


聚类(Clustering)是无监督学习中的核心任务,旨在将数据集划分为若干个相似子集。不同聚类算法在原理、假设、适用场景等方面各有千秋,本文将带你全面了解主流的几类聚类算法:基于划分、基于层次、基于密度、以及其他创新算法。


一、基于划分的聚类算法(Partition-based Clustering)

代表算法:K-Means

原理:

该类方法将数据划分为 K 个不重叠的簇,每个簇通过一个“中心点”来表示。算法通过迭代优化,使得所有样本到其所属簇中心的距离之和最小。

数学公式:

设数据集 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \dots, x_n\} X={x1,x2,,xn},目标是最小化:

argmin C ∑ i = 1 K ∑ x ∈ C i ∣ ∣ x − μ i ∣ ∣ 2 \text{argmin}_C \sum_{i=1}^{K} \sum_{x \in C_i} ||x - \mu_i||^2 argminCi=1KxCi∣∣xμi2

其中 μ i \mu_i μi 是簇 C i C_i Ci 的中心。

算法步骤:

  1. 随机选择 K 个中心点。
  2. 将每个样本分配到最近的中心点所代表的簇。
  3. 更新每个簇的中心点为其所有点的均值。
  4. 重复步骤2-3直到收敛。

应用场景:

  • 用户分群(根据购买行为)
  • 图像压缩(将像素聚类成色彩中心)
  • 市场细分

实际案例:

超市客户分群:使用顾客“月消费额”和“购买频率”作为特征进行聚类,将顾客划分为高价值客户、中间层、低频用户等,以制定差异化的营销策略。


二、基于层次的聚类算法(Hierarchical Clustering)

代表算法:AGNES(自底向上)

原理:

该类方法通过构建一个树状的层次结构(dendrogram)来表示聚类过程。

有两种策略:

  • 自底向上(Agglomerative):从每个点开始,不断合并最近的两个簇;
  • 自顶向下(Divisive):从整体开始,递归分裂为子簇。

距离计算方法:

  • 单链接:两个簇最近点之间的距离。
  • 完全链接:两个簇最远点之间的距离。
  • 平均链接:两个簇所有点对之间的平均距离。

应用场景:

  • 生物系统进化树
  • 社交网络中的社区识别
  • 文档层级分类

实际案例:

DNA 相似性聚类:生物学家可使用层次聚类构建不同物种的进化树,通过基因序列相似度判断其亲缘关系。


三、基于密度的聚类算法(Density-based Clustering)

代表算法:DBSCAN

原理:

该类算法认为一个簇是由密度相连的点组成。通过指定两个参数: ε \varepsilon ε(邻域半径)和 M i n P t s MinPts MinPts(最小邻域点数)来定义核心点与噪声点。

若一个点的 ε \varepsilon ε-邻域中至少有 M i n P t s MinPts MinPts 个点,则它是核心点;核心点间若存在密度可达路径,则归于同一簇。

应用场景:

  • 空间数据聚类(地震、地理信息)
  • 异常检测(识别噪声点)
  • 天文图像中的星团识别

实际案例:

星团识别:天文图像中,DBSCAN 可以自动识别星群,而将孤立的星星(低密度区域)判定为噪声点。


四、其他常见聚类方法

类别代表算法原理简介适用场景
基于网格的STING、CLIQUE将数据空间离散成网格单元,基于密度合并格子地理空间分析、图像区域划分
基于模型的GMM(高斯混合模型)假设数据由若干高斯分布组成,通过EM算法估计参数模糊聚类,金融建模
基于约束的COP-KMeans聚类过程中加入“必须/不能同组”的限制领域知识丰富的场景,如医疗、金融
基于图论/谱聚类Spectral Clustering构造图的拉普拉斯矩阵,通过特征值分解划分群体非凸簇、高维数据

五、算法类比与选择

算法类型类比记忆优点缺点
K-Means学生分组做作业简单高效对初始点敏感,不能识别非凸簇
层次聚类构建家谱树可视化好,无需预设簇数计算复杂度高,不易调整
DBSCAN拍照找人群密集区域能处理噪声和非凸簇对参数敏感,维度高时效果差
GMM每人属于多个兴趣圈适合软分配易陷局部最优,对初值敏感
谱聚类城市划片断路适合复杂结构数据运算量大,依赖图构建方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值