聚类算法

最新推荐文章于 2024-05-23 00:06:56 发布

原创最新推荐文章于 2024-05-23 00:06:56 发布 · 428 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨无监督学习中的聚类任务，包括聚类的目的、度量标准及多种聚类算法，如k均值、密度聚类、层次聚类等，旨在揭示数据内在结构并应用于实际场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 聚类任务

在无监督学习中，获取的数据集是没有label信息的，无监督学习的目的是对无label的数据集进行学习以揭示数据内部的性质及规律，为进一步的数据分析提供基础。

聚类是最常见的无监督学习任务。

聚类的目的是试图将数据集中的样本分成若干个不相交的子集，每一个子集称为一个簇，每个簇对应一个潜在的概念，如“浅色瓜”“无籽瓜”等。但是要注意的是，每个簇的概念是由使用者来定义的，聚类算法只是将具有形似性质的样本聚类成簇，而不同簇表示的含义对聚类算法而言是未知的。

形式化的定义聚类过程，就是对于无标记的数据集 $\{x_1,x_2,\cdots,x_m\},x_i\in R^n$ ，经过聚类之后形成k个不相交的簇 ${Cl∣l=1,2,⋯ ,k}\{C_l|l=1,2,\cdots,k\}$ ，其中 $(l≠l′)\bigcup_{i=1}^{k}C_i = D,C_l \bigcap C_{l^{'}} = \empty~(l \neq l^{'})$ 。

聚类可以作为单独的应用，用于发掘数据的内在结构。也可以用作其他应用的前驱过程，例如在一些商业应用中，往往先对用户类型聚类成簇之后，再对新用户的类型进行判别。

2 聚类度量

聚类度量是表述聚类结果好坏的标准。

对聚类结果，总体而言，是希望属于同一簇的样本尽可能相似，属于不同簇的样本差距尽可能大，也就是希望达到“簇内相似度高”、“簇间相似度低”的效果。

聚类度量可以分为两类，一类是有外部参考结果的外部指标；另一类是无外部参考结果的内部指标。

2.1 外部指标

数据集 $\{x_1,x_2,\cdots,x_m\}$ ，通过聚类给出簇划分 $C={C1,C2,⋯ ,Ck}C=\{C_1,C_2,\cdots,C_k\}$ ，外部参考模型给出的簇划分结果为 $C∗={C1∗,C2∗,⋯ ,Cs∗}C^*=\{C^*_1,C^*_2,\cdots,C^*_s\}$ ，令 $λ\lambda$ 和 $λ∗\lambda^*$ 分别表示 $C$ 与 $C^*$ 对应的簇标记向量。将样本两两配对，定义：
$d=∣DD∣,DD={(xi,xj)∣λi≠λj,λi∗≠λj∗,i<j}a=|SS|,SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}\\~b=|SD|,SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\neq \lambda^*_j,i<j\}\\~c=|DS|,DS=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i= \lambda^*_j,i<j\}\\~~d=|DD|,DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq \lambda^*_j,i<j\}$
a表示的是聚类算法判别为同一类且参考模型也判别为同一类的样本对数；b表示的是聚类算法判别为同一类但参考模型也判别为不同类的样本对数；c表示的是聚类算法判别为不同类但参考模型也判别为同一类的样本对数；d表示的是聚类算法判别为不同类且参考模型也判别为不同类的样本对数。由于每一个样本对只能出现在abcd某一个之中，因此有a+b+c+d=m(m-1)/2。

常见的聚类性能度量外部指标有：

Jaccard系数：
$\frac{a}{a+b+c}$

FM指数：
$\sqrt{\frac{a}{a+b}\frac{a}{a+c}}$

Rand指数：
$\frac{2(a+d)}{m(m-1)}$

上述三个指标取值范围都是 $[0, 1]$ ，值越大越好。

2.2 内部指标

考虑聚类结果的簇划分 $C={C1,C2,⋯ ,Ck}C=\{C_1,C_2,\cdots,C_k\}$ ，定义
$\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|c|}dist(x_i,x_j) \\ diam(C) = max_{1 \leq i < j \leq |C|}dist(x_i,x_j) \\ d_{min}(C_i,C_j) = min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j) \\ d_{cen}(C_i,C_j) = dist(u_i,u_j)$

dist()用于计算两个样本之间的距离；u表示聚类簇C的中心点位置。上述定义中，avg©表示某一聚类簇内部样本点距离的均值；diam©表示聚类簇C中样本间的最大距离； $d_{min}(C_i,C_j)$ 表示聚类簇 $C_i$ 与 $C_j$ 间的最小样本距离； $d_{cen}(C_i,C_j)$ 对应于簇 $C_i$ 与 $C_j$ 中心点之间的距离。

常用的聚类性能度量内部指标有：

DB指数：
$\frac{1}{k}\sum_{i=1}^{k}max_{j \neq i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(u_i,u_j)})$

Dumn指数：
$min_{1\leq i\leq k}\{min_{j \neq i }(\frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k }diam(C_l)})\}$

DBI的值越大越好，DI的值越小越好。

3 距离计算

对于函数dist(,)，若其为一个“距离度量”，则需满足一些基本性质：
非负性： $dist(xi,xj)≥0dist(x_i,x_j) \geq 0$ ；
同一性： $dist(x_i,x_j) = 0$ 当前仅当 $x_i = x_j$ ；
对称性： $dist(x_i,x_j) = dist(x_j,x_i)$ ；
直递性： $dist(xi,xj)≤dist(xi,xk)+dist(xk,xj)dist(x_i,x_j) \leq dist(x_i,x_k) + dist(x_k,x_j)$ （三角不等式）

给定样本 $xi=(xi1,xi2,⋯ ,xin)x_i = (x_{i1},x_{i2},\cdots,x_{in})$ 和 $xj=(xj1,xj2,⋯ ,xjn)x_j = (x_{j1},x_{j2},\cdots,x_{jn})$ ，最常用的是“闵可夫斯基距离”。
$distmk(xi,xj)=(∑u=1n(xiu−xju)p)1pdist_{mk}(x_i,x_j) = (\sum_{u=1}^{n}(x_{iu}-x_{ju})^p)^{\frac{1}{p}}$

当P=1时，称之为“曼哈顿距离”，也叫“街区距离”；当P=2时，即为“欧氏距离”。

属性可以分为“连续属性”和“无序属性”，例如{1,2,3}中不同的元素之间可以直接计算距离，称之为连续属性；而{飞机、轮船、汽车}无法直接计算距离，称之为“无序属性”。

闵可夫斯基距离同样可用于无序属性。

对无序属性可采用VDM(Value Difference Metric)。令 $m_{u,a}$ 表示在属性u上取值为a的样本数， $m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为：
$VDMp(a,b)=∑i=1k∣mu,a,imu,a−mu,b,imu,b∣VDM_p(a,b) = \sum_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}}|$

将闵可夫斯基距离与VDM结合可用来处理混合属性，假定有 $n_c$ 个有序属性、 $n-n_c$ 个无序属性，不失一般性，假设有序属性排列在无序属性之前，则
$MinkovDMp(xi,xj)=(∑u=1nc∣xiu−xju∣p+∑u=nc+1nVDMp(xiu,xju))1pMinkovDM_p(x_i,x_j) = (\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^{n}VDM_p(x_{iu},x_{ju}))^{\frac{1}{p}}$

当样本空间中不同属性的重要性不同时，还可使用加权距离，以闵可夫斯基距离为例：
$distwmk(xi,xj)=(w1∣xi1−xj1∣p+⋯+wn∣xin−xjn∣p)1pdist_{wmk}(x_i,x_j) = (w_1|x_{i1}-x_{j1}|^p + \cdots + w_n|x_{in}-x_{jn}|^p)^{\frac{1}{p}}$
$∑i=1nwi=1w_i \geq 0 ~~and~~ \sum_{i=1}^{n}w_i = 1$ .

一般情况下，我们基于距离度量来定义相似度，距离越大，相似度越小。

4 聚类算法

4.1 原型聚类

原型聚类假设聚类结构能够通过一组原型刻画，算法通常先对原型进行初始化，然后对原型进行迭代更新求解。

常见的原型聚类有k均值算法、学习向量量化和高斯混合聚类等。

4.1.1 k均值算法

给定样本集 $\{x_1,x_2,\cdots,x_m\}$ ，k均值算法针对聚类所得簇划分 $\{C_1,C_2,\cdots,C_k\}$ 最小化平方误差
$\sum_{i=1}^{k}\sum_{x \in C_i}||x - u_i||^2$
$ui=1∣Ci∣∑x∈Cixu_i = \frac{1}{|C_i|}\sum_{x \in C_i}x$ 是簇 $C_i$ 的均值向量。

直观来看，k均值算法在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E值越小则簇内样本相似度越高。

最小化上式并不容易，需要考察样本集D所有可能的簇划分，是一个NP难的问题。k均值算法采用贪心策略，通过迭代优化来近似求解式子。

k均值算法的流程如下所示：
在这里插入图片描述

为了避免运行时间过长，通常会设置一个最大迭代次数或最小调整幅度阈值，若达到最大迭代次数或者调整幅度小于设定的阈值则停止迭代，完成聚类。

k均值算法无法自适应的决定应该划分的簇数，需要预先设定k值，一般是基于不同的k值多次运行聚类算法之后选取最佳结果；另外，初始聚类中心点的选择对聚类结果也存在一定的影响，可以通过多次运行k均值算法选取最好的聚类结果；k均值算法需要不断的进行样本与中心点的距离计算及不断的更新中心点位置，在数据集规模较大时，k均值算法的计算量较大。

二分K-均值算法

为了克服K均值算法收敛于局部最小解的问题，有人提出了二分K-均值算法。该算法首先将所有点作为一个簇，然后将该簇一分为二。之后选择一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否能够最大限度的降低SSE的值。上述基于SSE的划分过程不断重复，直到得到用户指定的簇数目为止。

SSE，sum of squared error，误差平方和。通过计算一个簇中各样本点距离簇中心的距离平方和得到。

4.1.2 学习向量量化

学习向量量化(Learning Vector Quantization,LVQ)也是试图找到一组原型向量来刻画聚类结构。但与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

给定样本集 $D={(x1,y1),⋯ ,(xm,ym)},xj∈Rn,yiD=\{(x_1,y_1),\cdots,(x_m,y_m)\},x_j \in R^n,y_i$ 是样本的类别标记。LVQ的目标是学得一组n维的原型向量 ${p1,p2,⋯ ,pq}\{p_1,p_2,\cdots,p_q\}$ ，每个原型向量代表一个聚类簇，簇标记为 $t_i$ 。

LVQ算法的处理流程为：
在这里插入图片描述

LVQ算法也是首先随机选取q个样本作为初始原型向量，并且假定第i个初始原型向量具有类别 $t_i$ 。然后，计算每一个样本距离初始原型向量间的距离，将样本的类别设为距离最近的初始原型向量对应的标记 $t_{i^*}$ ，然后判断 $t_{i^*}$ 与样本本身的类别标记 $y_j$ 是否一致，如果一致，则更新第 $i^*$ 个原型向量以使其更加接近样本 $x_j$ ，否则则更新第 $i^*$ 个原型向量以使其更加远离样本 $x_j$ 。等到达到最大迭代轮数或者原型向量的更新量小于预设值时则停止迭代，完成聚类过程。

假如 $t_{i^*}$ 与样本本身的类别标记 $y_j$ 一致，则定义更新后的原型向量为 $p′=pi∗+η(xj−pi∗)p^{'}=p_{i^*}+\eta(x_j - p_{i^*})$ ，更新后的原型向量距离 $x_j$ 的距离为：
$∣∣p′−xj∣∣2=∣∣pi∗+η(xj−pi∗)−xj∣∣2=(1−η)∣∣pi∗−xj∣∣2||p^{'} - x_j||_2 = ||p_{i^*}+\eta(x_j - p_{i^*}) - x_j||_2 \\= (1 - \eta)||p_{i^*} - x_j||_2$
由于 $η∈(0,1)\eta \in (0,1)$ ，则更新后的原型向量距离 $x_j$ 更近。同理， $p′=pi∗−η(xj−pi∗)p^{'}=p_{i^*}-\eta(x_j - p_{i^*})$ 则更加远离 $x_j$ 。

在学得一组原型向量 ${p1,p2,⋯ ,pq}\{p_1,p_2,\cdots,p_q\}$ 之后，即可实现对样本空间X的簇划分，对任意样本x，将其划入与其距离最近的原型向量所代表的簇中。换言之，每个原型向量 $p_i$ 都定义了一个与之相关的区域 $R_i$ ，该区域中的每个样本与 $p_i$ 的距离都不大于它与其他原型向量 $pi′(i′≠i)p_{i^{'}}(i^{'} \neq i)$ 的距离，即
$Ri={x∈X∣∣∣x−pi∣∣2≤∣∣x−pi′∣∣,i≠i′}R_i = \{x \in X | ||x - p_i||_2 \leq ||x - p_{i^{'}}||,i \neq i^{'}\}$
由此形成了对样本空间的簇划分 ${R1,R2,⋯ ,Rq}\{R_1,R_2,\cdots,R_q\}$ ，该划分通常称之为“Voronoi”剖分。

4.1.3 高斯混合聚类

高斯混合聚类采用概率模型来表达聚类思想。

多元高斯分布：
$p(x∣u,Σ)=1(2π)n2∣Σ∣12e−12(x−u)TΣ−1(x−u)p(x|u,\Sigma) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(x - u)^T\Sigma^{-1}(x - u)}$

高斯混合分布：
$p(x∣ui,Σi)p_M(x) = \sum_{i=1}^{k}\alpha_i ~ p(x|u_i,\Sigma_i)$
上述分布由k个混合成分组成，每个混合成分对应一个高斯分布，其中 $u_i$ 与 $Σi\Sigma_i$ 为第i个高斯混合分布的参数，而 $αi\alpha_i$ 为相应的混合系数， $∑i=1kαi=1\sum_{i=1}^{k}\alpha_i = 1$ 。

假设样本的生成过程由高斯混合分布给出：首先，根据 $α1,α2,⋯ ,αk\alpha_1,\alpha_2,\cdots,\alpha_k$ 定义的先验分布选择高斯混合成分，其中 $αi\alpha_i$ 为选择第i个混合成分的概率；然后，根据被选择的混合成分的概率密度函数进行采样，从而生成相应的样本。若采样生成了数据集 $\{x_1,x_2,\cdots,x_m\}$ ，令随机变量 $zj∈{1,2,⋯ ,k}z_j \in \{1,2,\cdots,k\}$ 表示生成样本 $x_j$ 的高斯混合成分，其取值未知。 $z_j$ 的先验概率 $p(z_j = i)$ 即为 $αi\alpha_i$ 。根据贝叶斯定理， $z_j$ 的后验概率为：
$p(x∣ul,Σl)p_M(z_j = i | x_j) = \frac{P(z_j = i)~~p_M(x_j|z_j = i)}{p_M(x_j)} \\ =\frac{\alpha_i~~p(x_j|u_i,\Sigma_i)}{\sum_{l=1}^{k}\alpha_l ~ p(x|u_l,\Sigma_l)} \tag {9.30}$
$p_M(z_j = i|x_j)$ 给出了样本 $x_j$ 由第i个高斯混合成分生成的后验概率，将其简记为 $γji(i=1,2,⋯ ,k)\gamma_{ji}(i=1,2,\cdots,k)$ 。

当高斯混合分布 $p_M(x)$ 已知时，高斯混合聚类将把样本集D划分为k个簇 $C={C1,C2,⋯ ,Ck}C=\{C_1,C_2,\cdots,C_k\}$ ，每个样本 $x_j$ 对于的簇标记 $λj\lambda_j$ 如下确定：
$γji\lambda_j = arg~max_{i \in \{1,2,\cdots,k\}}~~\gamma_{ji} \tag{9.31}$

因此，从原型聚类的角度看，高斯混合聚类是采用概率模型对原型进行刻画，簇划分由原型对应的后验概率确定。

那么，现在就遗留一个问题，如何求解得到各概率模型的参数 $αi,ui,Σi\alpha_i,u_i,\Sigma_i$ 。可以通过极大似然估计，极大化对数似然进行求解。

高斯混合聚类的整个过程为：
在这里插入图片描述

高斯混合聚类算法的过程中应用了EM算法，其中上图中的第4步是EM算法的E步，第7,8,9步是EM算法中的M步。EM算法的推导过程后面的博客中进行补充。高斯混合聚类的过程也可以参考CS229的notes 7b，notes8。

高斯混合聚类和k均值聚类的处理过程很相似，都是开始随机初始化参数，然后根据参数确定各样本的类别，待样本类别确定之后根据初步的分类结果更新各类别的参数，进而再重新确定类别，依此循环，直到达到迭代次数或者参数的改变量很小时停止迭代，完成聚类。

上述三种原型聚类方法，k均值、LVQ、高斯混合聚类都需要预先设置聚类的数目，而聚类数目作为一个超参数在很多应用中是未知的，因此限制了原型聚类算法的应用场景。

4.2 密度聚类

密度聚类为“基于密度的聚类”，算法假设聚类结构能够通过样本分布的紧密程度确定。通常情形下，密度聚类算法从样本密度的角度来考察样本的可连接性，并基于可连接样本不断扩展聚类簇以获取最终的聚类效果。

DBSCAN是一种著名的密度聚类算法，它基于一组“领域”参数 $(ϵ,MinPts)(\epsilon,MinPts)$ 来刻画样本分布的紧密程度。给定数据集 $\{x_1,x_2,\cdots,x_m\}$ ，定义下面几个概念：

$ϵ−\epsilon-$ 领域：对于样本 $xj∈Dx_j \in D$ ，其 $ϵ−\epsilon-$ 领域包含样本集D中与 $x_j$ 距离不大于 $ϵ\epsilon$ 的样本，即 $Nϵ(xj)={xi∈D∣dist(xi,xj)≤ϵ}N_{\epsilon}(x_j)=\{x_i \in D|dist(x_i,x_j) \leq \epsilon\}$ ；

核心对象：若 $x_j$ 的 $ϵ−\epsilon-$ 领域至少包含MinPts个样本，即 $∣Nϵ(xj)∣≥MinPts|N_{\epsilon}(x_j)| \geq MinPts$ ，则 $x_j$ 是一个核心对象；

密度直达：若 $x_j$ 位于 $x_i$ 的 $ϵ−\epsilon-$ 领域内，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达；

密度可达：对 $x_i$ 与 $x_j$ ，若存在样本序列 $p1,p2,⋯ ,pnp_1,p_2,\cdots,p_n$ ，其中 $p_1 = x_i,p_n = x_j$ 且 $p_{i+1}$ 由 $p_i$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达。

密度相连：对于 $x_i$ 和 $x_j$ ，若存在 $x_k$ 使得 $x_i$ 与 $x_j$ 均由 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。

在这里插入图片描述

DBSCAN将簇定义为：由密度可达关系导出的最大的密度相连样本集合。

形式化地说，给定领域参数 $(ϵ,MinPts)(\epsilon,MinPts)$ ，簇 $\subseteq D$ 是满足下列性质的非空样本子集：
连接性： $xi∈C,xj∈Cx_i \in C,x_j \in C$ $⇒\Rightarrow$ $x_i$ 与 $x_j$ 密度相连；
最大性： $xi∈Cx_i \in C$ ， $x_j$ 由 $x_i$ 密度可达 $⇒\Rightarrow$ $xj∈Cx_j \in C$ 。
在数据集D中，若x为核心对象，则由x密度可达的所有样本集合记为 $\{x^{'} \in D | x^{'}由x密度可达\}$ ，则X为满足连接性与最大性的簇。

因此在DBSCAN算法中，先任选数据集中的一个核心对象为“种子”，再由此出发确定相应的聚类簇。算法的整个流程如下图所示：
在这里插入图片描述

DBSCAN的处理过程为首先遍历所有的样本点，找到所有的核心对象，然后对每一个核心对象，找到其所有密度可达的样本点形成簇。然后从核心对象序列中删除包含在已形成的簇中的核心对象，直到核心对象序列为空时完成聚类过程。

DBSCAN不需要预先设定聚类簇数，而是根据样本的分布情况由算法自己决定聚类簇数，具有较大的实际应用价值。

4.3 层次聚类

层次聚类试图在不同层次上对数据集进行划分，从而形成树形的聚类结构。数据集的划分可以采用“自底向上”的聚合策略，也可以采用“自上向下”的分拆策略。

AGNES是一种采用自底向上聚合策略的层次聚类算法，它先将数据集中的每一个样本看出是一个聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直达达到预设的聚类簇个数。这里的关键是计算聚类簇之间的距离，每一个聚类簇都是一个样本集合，因此只需计算样本集合间的某种距离即可。给定聚类簇 $C_i$ 和 $C_j$ ，可通过下面的式子来计算距离：
最小距离： $dmin(Ci,Cj)=minx∈Ci,z∈Cjdist(x,z)d_{min}(C_i,C_j) = min_{x \in C_i,z \in C_j}dist(x,z)$
最大距离： $dmax(Ci,Cj)=maxx∈Ci,z∈Cjdist(x,z)d_{max}(C_i,C_j) = max_{x \in C_i,z \in C_j}dist(x,z)$
平均距离： $davg(Ci,Cj)=1∣Ci∣∣Cj∣∑x∈Ci∑z∈Cjdist(x,z)d_{avg}(C_i,C_j) = \frac{1}{|C_i||C_j|}\sum_{x \in C_i}\sum_{z \in C_j}dist(x,z)$