【机器学习】【无监督学习——聚类】从零开始掌握聚类分析：探索数据背后的隐藏模式与应用实例

宸码

已于 2024-12-18 09:06:05 修改

阅读量2.3k

点赞数 39

分类专栏：模式识别机器学习文章标签：机器学习学习聚类算法人工智能数据挖掘 python

于 2024-12-15 18:23:40 首次发布

本文链接：https://blog.youkuaiyun.com/m0_74882984/article/details/144486428

版权

从零开始掌握聚类分析：探索数据背后的隐藏模式与应用实例

基本概念
聚类分类
聚类算法的评价指标
常见聚类算法简介
聚类算法实战——K-Means算法——购物中心客户分群分析
聚类算法实战——DBSCAN算法——城市公共自行车站点分布分析
总结

基本概念

聚类（Clustering） 是一种无监督学习方法，其目的是将一组数据点分成若干个簇（clusters），使得同一簇内的数据点彼此之间具有较高的相似性，而不同簇之间的数据点相似性较低。然而一共有几个蔟不是事先给定的，是由待分类的数据的特征决定的。简单来说，聚类的目的就是通过无监督学习的方法，发现数据中的自然分组结构，将数据分为几堆这样，

那什么是簇呢？簇是一组具有相似特征的数据点或对象组成的集合。简单来说，簇是数据点按照某种相似性度量被分组的结果，其中每个簇内的成员彼此之间比与其他簇的成员更加相似。就像在一个菜篮子里面，通过辨识篮子里面蔬菜的特征，将蔬菜分成了几类、几堆。

聚类分类

根据不同的聚类原理和算法特点，聚类算法可以分为以下几类：

基于划分的聚类算法：如K-Means、K-Medoids、CLARANS等。这类算法通过迭代优化目标函数，将数据集划分为预定的K个簇。
基于密度的聚类算法：如DBSCAN、OPTICS、Mean Shift等。这类算法通过密度可达性来识别簇，能够识别出任意形状的簇。
基于层次的聚类算法：如AGNES（自底向上）、DIANA（自顶向下）等。这类算法通过逐步合并或分裂现有的簇，形成一棵聚类树。
基于网格的聚类算法：如STING、WaveCluster等。这类算法将数据空间划分为有限数量的单元格，形成网格结构，然后在网格上进行聚类。
基于模型的聚类算法：如高斯混合模型（GMM）、隐马尔可夫模型（HMM）等。这类算法假设数据由一系列的概率分布生成，通过优化模型参数来进行聚类。

聚类算法的评价指标

聚类算法的评价指标又称为性能度量指标，透过这个指标我们可以分析聚类算法的聚类结果的好坏。通常认为，通过聚类算法之后，簇内相似度越高算法分类效果越好，蔟间相似度越低算法分类效果越好，反之。

聚类算法的评价通常依赖于内部指标和外部指标两大类。下面一一讲解着两种指标：

（1）内部指标

内部指标主要衡量聚类结果的紧凑性和分离性，不需要外部参考模型或基准数据，它是直接通过考察聚类结果得出的。常见的内部指标包括：

轮廓系数（Silhouette Coefficient）

轮廓系数是衡量聚类效果的一个综合指标，它结合了簇内凝聚度和簇间分离度。对于每个样本点，轮廓系数定义为：
$\frac{b(i) - a(i)}{\max\{a(i), b(i)\}}$
其中：

$a (i)$ 是样本点 $i$ 到同一簇内其他点的平均距离，衡量了簇内的凝聚度。
$b (i)$ 是样本点 $i$ 到最近的其他簇中点的平均距离，衡量了簇间的分离度。

轮廓系数的取值范围为 $[- 1, 1]$ ，其中： $s (i)$ 接近 1 表示样本点 $i$ 被很好地分配到了正确的簇中、接近 0 表示样本点 $i$ 可能处于两个簇的边界上、接近 -1 表示样本点 $i$ 被分配到了错误的簇中。

对于整个数据集，轮廓系数是所有样本点的轮廓系数的平均值。

DB指数（Davies-Bouldin Index）

DB指数是衡量聚类效果的一个指标，它基于簇内紧凑度和簇间分离度的比值。DB指数的公式为：
$\frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d(c_i, c_j)} \right)$
其中：

$k$ 是簇的数量。
$\sigma_i$ 和 $\sigma_j$ 分别是簇 $i$ 和簇 $j$ 的平均簇内距离。
$d(c_i, c_j)$ 是簇 $i$ 和簇 $j$ 的中心点之间的距离。
$\max_{j \neq i}$ 表示对所有的 $j$ 不等于 $i$ 的簇进行计算。

DB指数的值越小，表示聚类效果越好，因为这意味着簇内距离较小而簇间距离较大。

Dunn指数

Dunn指数是基于簇间最小距离和簇内最大距离的一个比值，用于衡量聚类的紧密度和分离度。Dunn指数的公式为：
$\min_{1 \leq i \leq k} \left\{ \min_{j \neq i} \left( \frac{d_{\min}(C_i, C_j)}{\max_{1 \leq l \leq k} d_{\max}(C_l)} \right) \right\}$
其中：