聚类算法

最新推荐文章于 2025-06-03 21:49:26 发布

原创最新推荐文章于 2025-06-03 21:49:26 发布 · 869 阅读

5 ·

CC 4.0 BY-SA版权

算法原理专栏收录该内容

28 篇文章

订阅专栏

本文是周志华《机器学习》第九章的学习笔记。

“无监督学习”通过对无标记训练样本的学习来揭示数据的内在性质及规律。通常，“无监督学习”包含的任务类型有“聚类”、“密度估计”、“异常检测”等，下述将主要对“聚类”进行讨论。

（1）“聚类”任务可以作为一个单独过程，也可以作为分类等其他学习任务的前去过程，即根据聚类结果将每个“簇”定义为一个“类”，然后基于这些类训练分类模型。（2）“聚类”任务中使用的样本可以带有标签，也可以不带标签。对无标签样本进行聚类，其数学语言描述如下：假定样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ 包含 $m$ 个无标记样本，每个样本 $\boldsymbol{x}_i=(x_{i1};x_{i2};\cdots;x_{in})$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分成 $k$ 个互斥且完备的簇 $\{C_l|l=1,2,\cdots,k\}$ ，即 $C_{l^{'}}\bigcap_{l^{'}\neq l}C_{l}=\varnothing$ ，且 $D=\bigcup_{l=1}^{k}C_{l}$ 。用 $\lambda_{j}\in\{1,2,\cdots,k\}$ 表示样本 $\boldsymbol{x}_{j}$ 的“簇标记”，即 $\boldsymbol{x}_{j}\in C_{\lambda_{j}}$ 。则样本集 $D$ 对应的聚类结果可表示为 $\boldsymbol{\lambda}=(\lambda_{1},\lambda_{2},\cdots,\lambda_{m})$ 。

性能度量

聚类算法的预期目标是“簇内相似度”高，“簇间相似度”低。通过“性能度量”评估聚类结果好坏，将“性能度量”作为“聚类过程优化的目标”。聚类性能度量主要有两大类：（1）外部指标：将聚类结果与某个“参考模型”进行比较；（2）内部指标：直接参考聚类结果而不利用

外部指标：

对数据集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ 的簇划分 $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ 参考模型给出的簇划分 $\mathcal{C^*}=\{C^*_1,C^*_2,\cdots,C^*_k\}$ ，且 $\boldsymbol{\lambda}$ 表示 $\mathcal{C}$ 对应的簇标记向量、 $\boldsymbol{\lambda^*}$ 表示 $\mathcal{C^*}$ 对应的簇标记向量，则可定义

a = | S S | ， S S = {(x i, x j) | λ i = λ j, λ * i = λ * j, i < j} b = | S D | ， S D = {(x i, x j) | λ i = λ j, λ * i \neq λ * j, i < j} c = | D S | ， D S = {(x i, x j) | λ i \neq λ j, λ * i = λ * j, i < j} d = | D D | ， D D = {(x i, x j) | λ i \neq λ j, λ * i \neq λ * j, i < j}

$\begin{matrix} a=|SS|，SS=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}\\ b=|SD|，SD=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i=\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\}\\ c=|DS|，DS=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i\neq\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}\\ d=|DD|，DD=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\}\\ \end{matrix}$

Jaccard系数： $\displaystyle JC=\frac{a}{a+b+c}$
FM指数： $\displaystyle FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}$
Rand指数： $\displaystyle RI=\frac{2(a+d)}{m(m-1)}$

其中， $JC,FMI,RI\in[0,1]$ ，且值越大代表聚类效果越好。

内部指标：

根据对数据集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ 的簇划分 $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ ，定义

簇 C 内 样 本 间 平 均 距 离 ： a v g (C) = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, x j) 簇 C 内 样 本 间 最 远 距 离 ： d i a m (C) = max 1 \leq i < j \leq | C | d i s t (x i, x j) 簇 C i 和 C j 最 近 样 本 间 的 距 离 ： d m i n (C i, C j) = min x i \in C i, x j \in C j d i s t (x i, x j) 簇 C i 和 C j 中 心 点 间 的 距 离 ： d c e n (C i, C j) = d i s t (μ i, μ j)

$\begin{matrix} 簇C内样本间平均距离：\displaystyle avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|}dist(\boldsymbol{x}_i,\boldsymbol{x}_j) \\ 簇C内样本间最远距离：\displaystyle diam(C)=\max_{1\leq i<j\leq|C|}dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\\ 簇C_i和C_j最近样本间的距离：\displaystyle d_{min}(C_i,C_j)=\min_{\boldsymbol{x}_i\in C_i,\boldsymbol{x}_j\in C_j}dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\\ 簇C_i和C_j中心点间的距离：\displaystyle d_{cen}(C_i,C_j)=dist(\boldsymbol{\mu}_i,\boldsymbol{\mu}_j)\\ \end{matrix}$
上式中

dist(⋅,⋅)dist(⋅,⋅) $dist(\cdot,\cdot)$ 计算两样本间的距离，

μμ $\boldsymbol{\mu}$ 代表簇

CC $C$ 的中心点

μ = \frac{1}{| C |} \sum_{1 \leq i \leq | C |} x_{i}

$\displaystyle\boldsymbol{\mu}=\frac{1}{|C|}\sum_{1\leq i\leq|C|}\boldsymbol{x}_i$ 。

DB指数： $\displaystyle DBI=\frac{1}{k}\sum_{i=1}^{k}\max\limits_{j\neq i}\Big(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\boldsymbol{\mu}_i,\boldsymbol{\mu}_j)}\Big)$
Dunn指数： $\displaystyle DI=\min\limits_{1\leq i\leq k}\Big\{\min\limits_{j\neq i}\Big(\frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)}\Big)\Big\}$

距离计算

满足非负性、对称性、传递性的基本度量距离，即L1,L2,Lp范数：

d i s t m a n (x i, x j) = | | x i - x j | | 1 = \sum u = 1 n | x i u - x j u | d i s t e d (x i, x j) = | | x i - x j | | 2 = \sum u = 1 n | x i u - x j u | 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt d i s t m k (x i, x j) = (\sum u = 1 n | x i u - x j u | p) 1 p

$\begin{matrix} dist_{man}(\boldsymbol{x}_i,\boldsymbol{x}_j)=||\boldsymbol{x}_i-\boldsymbol{x}_j||_1=\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|\\ dist_{ed}(\boldsymbol{x}_i,\boldsymbol{x}_j)=||\boldsymbol{x}_i-\boldsymbol{x}_j||_2=\sqrt{\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^{2}}\\ dist_{mk}(\boldsymbol{x}_i,\boldsymbol{x}_j)=\Big(\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^{p}\Big)^{\frac{1}{p}}\\ \end{matrix}$

“连续属性”：在定义域上有无穷多个可能的取值
“离散属性”：在定义域上是有限个取值
“有序属性”：在该属性上定义了“序”关系，如 $\{1,2,3\}$ 里“ $1$ ”与“ $2$ ”比较接近，与“ $3$ ”相距较远。
“无序属性”：如 $\{飞机,汽车,轮船\}$ 这样的离散属性即为无序属性。
可以直接在有序属性上计算距离，但不能直接在无序属性上计算距离。
（1）无序属性可利用VDM距离度量：

$\displaystyle VDM_p(a,b)=\sum\limits_{i=1}^{k}\Big|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}\Big|^p$

上式中 $m_{u,a}$ 表示在属性 $u$ 上取值为 $a$ 的样本数， $m_{u,a,i}$ 表示在第 $i$ 个簇中在属性 $u$ 上取值为 $a$ 的样本数， $k$ 为簇数。

（2）混合属性(样本向量不同维度，既包含有序属性又包含无序属性)可将Minkowski(Lp范数)距离和VDM结合：

$\displaystyle MinkovDM_{p}(\boldsymbol{x}_i,\boldsymbol{x}_j)=\Big(\sum\limits_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum\limits_{u=n_c+1}^{n}VDM_{p}(x_{iu},y_{ju})\Big)^\frac{1}{p}$

原型指样本空间里“具有代表性的点”，可通过一组原型刻画聚类结构。基于原型的聚类算法——对原型初始化，对原型迭代更新。

原型聚类——K-means

“K均值”算法对样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ 聚类，得到的簇划分 $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ 对应的最小化平方误差：

E = \sum i = 1 k \sum x \in C i | | x - μ i | | 22 ， 其 中 μ i = 1 C i \sum x \in C i x 是 簇 C i 的 均 值 向 量

$\displaystyle E=\sum\limits_{i=1}^{k}\sum\limits_{\boldsymbol{x}\in C_i}||\boldsymbol{x}-\boldsymbol{\mu}_i||^2_2，其中\boldsymbol{\mu}_i=\frac{1}{C_i}\sum\limits_{\boldsymbol{x}\in C_i}\boldsymbol{x}是簇C_i的均值向量$

EE $E$ 刻画了簇内样本围绕簇均值向量的紧密程度，

E

$E$ 值越小表示簇内样本相似度越高。要想求

EE $E$ 的最优解，需要遍历考查样本集

D

$D$ 所有可能的簇划分，是NP难问题；实际操作中，常采用贪心策略，通过迭代优化近似求解。

输入：样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ ；聚类簇数 $k$ .
算法流程：
（1）从 $D$ 里随机选 $k$ 个样本作为初始均值向量 $\{\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\cdots,\boldsymbol{\mu}_k\}$ .
（2）通过循环逐个生成簇，目标是生成k个聚类簇：
- 对 $D$ 里每个样本 $\boldsymbol{x}_i$ ：
- a.）计算该样本与各均值向量 $\boldsymbol{\mu}_i$ 的距离： $d_{ji}=||\boldsymbol{x}_j-\boldsymbol{\mu}_i||_2$ ，
- b.）对应可得样本 $\boldsymbol{\mu}_i$ 所归属的簇标记 $\lambda_j=argmin_{i\in\{1,2,\cdots,k\}}d_{ji}$ ，
- c.）把样本 $\boldsymbol{x}_i$ 加入簇 $C_{\lambda_{j}}=C_{\lambda_{j}}\bigcup{\boldsymbol{x}_j}$ .
- 更新各个聚类簇的均值向量 $\displaystyle\boldsymbol{\mu}^{'}_i=\frac{1}{|C_i|}\sum_{\boldsymbol{x}\in C_i}\boldsymbol{x}$ ，
- 判断 $\boldsymbol{\mu}^{'}_i$ 与 $\boldsymbol{\mu}_i$ 是否相等，相等则该聚类簇中心不变，不相等则更新为 $\boldsymbol{\mu}^{'}_i$ .
（3）重复以上过程（2），直到达到最大迭代次数限制；或对所有 $i$ 满足 $|\boldsymbol{\mu}^{'}_i-\boldsymbol{\mu}_i|\leq \epsilon（\epsilon是任意正数）$ 时，停止迭代.

原型聚类——学习向量量化LVQ

LVQ算法里假设数据样本带有“类别标签”，簇划分过程需要记住“类别标签”辅助学习。即，对于给定的样本集 $D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots,(\boldsymbol{x}_m,y_m)\}$ ， $n$ 维属性 $\boldsymbol{x}_j=(x_{j1},x_{j2},\cdots,x_{jn})$ ，样本 $\boldsymbol{x}_j$ 的类标记 $y_j\in\mathcal{Y}$ 。
LVQ的目标是学习到一组“代表各个聚类簇”的 $n$ 维原型向量 $\{\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q\}$ ，即原型向量和样本的属性具有相同的维度。由此，LVQ初始化第 $q$ 个簇的原型向量的一种方法：从类别标记为 $t_q$ 的样本里，随机选取一个“样本属性向量”作为“初始原型向量”。
输入：样本集 $D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots,(\boldsymbol{x}_m,y_m)\}$ ；原型向量个数 $q$ ；各原型向量初始类别标记 $\{t_1,t_2,\cdots,t_q\}$ ；学习率 $\eta\in(0,1)$ .
算法流程：
（1）从类别标记为 $t_i(i=1,2,\cdots,q)$ 的样本里，随机选取一个“样本属性向量”作为初始原型向量 $\boldsymbol{p}_i(i=1,2,\cdots,q)$ ；得初始化原型向量组 $\{\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q\}$ .
（2）遍历更新每个原型向量：

随机选取 $D$ 内的一个样本 $(\boldsymbol{x}_j,y_j)$ ：
a.）计算该样本与各个原型向量 $\boldsymbol{p}_i(i=1,2,\cdots,q)$ 的距离： $d_{ji}=||\boldsymbol{x}_j-\boldsymbol{p}_i||_2$ ，
b.）找出与 $\boldsymbol{x}_j$ 距离最近的原型向量 $\boldsymbol{p}^*_i$ ， $i^*=argmin_{i\in\{1,2,\cdots,q\}}d_{ji}$ ，
c.）更新原型向量：如 $y_j=t^*_i$ ，则 $\boldsymbol{p}^{'}=\boldsymbol{p}^*_i+\eta\cdot(\boldsymbol{x}_j-\boldsymbol{p}^*_i)$ (原型向量靠近 $x_j$ )；否则， $\boldsymbol{p}^{'}=\boldsymbol{p}^*_i-\eta\cdot(\boldsymbol{x}_j-\boldsymbol{p}^*_i)$ (原型向量远离 $x_j$ ).
（3）重复以上过程（2），直到达到最大迭代次数限制；或“原型向量”更新很小甚至不更新时，停止迭代.

原型聚类——高斯混合聚类

高斯混合聚类采用“概率模型”来表达聚类原型，定义高斯混合分布

$p  (x) = \sum i = 1 k α i \cdot p (x | μ i, Σ i) = \sum i = 1 k α i \cdot 1 ( 2 π ) n 2 | Σ i | 1 2 e - 1 2 (x - μ i) T Σ - 1 i (x - μ i)$ $p_\mathcal{M}(\boldsymbol{x})=\sum\limits_{i=1}^{k}\alpha_i\cdot p(\boldsymbol{x}|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)=\sum\limits_{i=1}^{k}\alpha_i\cdot \frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{\Sigma}_i|^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_i)^{T}\boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_i)}$
上式， $\boldsymbol{\mu}_i$ 是第 $i$ 个高斯混合成分的 $n$ 维均值矩阵； $\boldsymbol{\Sigma}_i$ 是第 $i$ 个高斯混合成分的 $n\times n$ 维协方差矩阵； $\alpha_i>0$ 是第 $i$ 个高斯混合成分的“混合系数”，且 $\sum\limits_{i=1}^k\alpha_i=1$ 。
样本生成过程：根据“混合系数”定义的先验分布，选择该样本所属的高斯混合成分(其中 $\alpha_i$ 是选择第 $i$ 个高斯混合成分的概率)，根据被选择的高斯混合成分的“概率密度函数”进行“采样”，从而生成相应的样本。

定义随机变量 $z_j\in\{1,2,\cdots,k\}$ 表示生成样本 $\boldsymbol{x}_j$ 的高斯混合成分，则 $z_j$ 的先验概率 $P(z_j=i)=\alpha_i$ ，由贝叶斯公式 $z_j$ 的后验分布

$p  (z j = i | x j) = P ( z j = i ) \cdot p  ( x j | z j = i ) p  ( x j ) = α i \cdot p ( x j | μ i , Σ i ) \sum l = 1 k α l \cdot p ( x j | μ l , Σ l ) ≜ γ j i$ $p_\mathcal{M}(z_j=i|\boldsymbol{x}_j)=\frac{P(z_j=i)\cdot p_\mathcal{M}(\boldsymbol{x}_j|z_j=i)}{p_\mathcal{M}(\boldsymbol{x}_j)}=\frac{\alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)}{\sum\limits_{l=1}^k \alpha_l\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_l,\boldsymbol{\Sigma}_l)}\triangleq\gamma_{ji}$
（1）若模型参数已知，即模型确定时，将样本集 $D$ 划分为 $k$ 个簇 $\mathcal{C}=\{C_1,C_2,\cdots,C_k\}$ 的方法：每个样本 $\boldsymbol{x}_j$ 的簇标记 $\lambda_j=\underset{i\in\{1,2,\cdots,k\}}{arg\max} \gamma_{ji}$ 。
（2）模型参数 $\{(\alpha_i,\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)|1\leq i\leq k\}$ 利用“极大似然估计求导和EM算法迭代”学习：
$L L (D) = l n (\prod j = 1 m p  (x j)) = l n (\prod j = 1 m (\sum i = 1 k P (z j = i) \cdot p  (x j | z j = i))) = l n (\prod j = 1 m (\sum i = 1 k α i \cdot p (x j | μ i, Σ i))) = \sum j = 1 m l n (\sum i = 1 k α i \cdot p (x j | μ i, Σ i))$ $LL(D)=ln\Big(\prod\limits_{j=1}^m p_\mathcal{M}(\boldsymbol{x}_j)\Big)=ln\Big(\prod\limits_{j=1}^m\big(\sum\limits_{i=1}^k P(z_j=i)\cdot p_\mathcal{M}(\boldsymbol{x}_j|z_j=i)\big)\Big)\\ =ln\Big(\prod\limits_{j=1}^m\big(\sum\limits_{i=1}^k \alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)\big)\Big)=\sum\limits_{j=1}^m ln\Big(\sum\limits_{i=1}^k \alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)\Big)$
由 $\displaystyle\frac{\partial LL(D)}{\partial\boldsymbol{\mu}_i}=0$ 可求得 $\displaystyle\boldsymbol{\mu}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}\boldsymbol{x}_j}{\sum\limits_{j=1}^m \gamma_{ji}}$ ；由 $\displaystyle\frac{\partial LL(D)}{\partial\boldsymbol{\Sigma}_i}=0$ 可求得 $\displaystyle\boldsymbol{\Sigma}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}(\boldsymbol{x}_j-\boldsymbol{\mu}_i)(\boldsymbol{x}_j-\boldsymbol{\mu}_i)^T}{\sum\limits_{j=1}^m \gamma_{ji}}$ ；将约束 $\alpha_i>0,\sum\limits_{i=1}^k\alpha_i=1$ 转化成Lagrange乘子后求导，即 $\displaystyle\frac{\partial\Big(LL(D)+\lambda(\sum\limits_{i=1}^k\alpha_i-1)\Big)}{\partial\alpha_i}=0$ ，可求得 $\displaystyle\alpha_i=\frac{1}{m}\sum\limits_{j=1}^m \gamma_{ji}$ 。
输入：样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ ；高斯混合成分个数 $k$ .

算法流程：

（1）初始化高斯混合分布的模型参数 $\{(\alpha_i,\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)|1\leq i\leq k\}$ .
（2）遍历更新每个样本：

根据贝叶斯公式，计算每个样本 $\boldsymbol{x}_j$ 由各高斯混合成分生成的后验概率 $\gamma_{ji}=p_\mathcal{M}(z_j=i|\boldsymbol{x}_j)，(1\leq i\leq k)$ .
（3）更新每个高斯混合成分的参数：

a.）计算新均值向量 $\displaystyle\boldsymbol{\mu^{'}}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}\boldsymbol{x}_j}{\sum\limits_{j=1}^m \gamma_{ji}}$ ，
b.）计算新协方差矩阵 $\displaystyle\boldsymbol{\Sigma^{'}}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}(\boldsymbol{x}_j-\boldsymbol{\mu}_i)(\boldsymbol{x}_j-\boldsymbol{\mu}_i)^T}{\sum\limits_{j=1}^m \gamma_{ji}}$ ,
c.）计算新混合系数 $\displaystyle\alpha^{'}_i=\frac{1}{m}\sum\limits_{j=1}^m \gamma_{ji}$ .
（4）根据后验概率 $\gamma_{ji}$ ，对每个样本确定簇标记 $\lambda_j=\underset{i\in\{1,2,\cdots,k\}}{arg\max} \gamma_{ji}$ ，则第 $C_{\lambda_j}$ 个簇更新为 $C_{\lambda_j}=C_{\lambda_j}\bigcup\{\boldsymbol{x}_j\}$ .

密度聚类

此类方法通过“样本分布的紧密程度”确定聚类结构。即，从样本密度角度考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇，以获得最终的聚类结果。

密度聚类算法DBSCAN

该算法是对给定的数据集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ ，基于一组“邻域”参数 $(\epsilon,MinPts)$ ，刻画样本分布的紧密程度。首先，给出如下定义：
（1） $\epsilon-$ 邻域： $\boldsymbol{x}_j\in D$ 的 $\epsilon-$ 邻域指该邻范围内包含的所有其余样本点集合， $N_{\epsilon}(\boldsymbol{x}_j)=\{\boldsymbol{x}_i\in D|dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\leq\epsilon\}$ .
（2）核心对象：某样本 $\boldsymbol{x}_j$ 是核心样本，指其 $\epsilon-$ 邻域内至少包含 $MinPts$ 个样本点，即 $|N_{\epsilon}(\boldsymbol{x}_j)|\geq MinPts$ .
（3）密度直达： $\boldsymbol{x}_j$ 是核心对象 $\boldsymbol{x}_i$ 的 $\epsilon-$ 邻域内的点，称 $\boldsymbol{x}_j$ 由 $\boldsymbol{x}_i$ 密度直达.
（4）密度可达：若有样本序列 $\boldsymbol{x}_i=\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_n=\boldsymbol{x}_j$ ，且后一样本点 $\boldsymbol{p}_{i+1}$ 由前一样本点 $\boldsymbol{p}_i$ 密度直达，则 $\boldsymbol{x}_j$ 由 $\boldsymbol{x}_i$ 密度可达.
（5）密度相连：若样本点 $\boldsymbol{x}_i$ 和 $\boldsymbol{x}_j$ 均由 $\boldsymbol{x}_k$ 密度可达，则 $\boldsymbol{x}_i$ 和 $\boldsymbol{x}_j$ 密度相连.

DBSCAN算法的“簇”是由密度可达导出的“最大”密度相连的“样本的集合”。若 $\boldsymbol{x}$ 为核心对象，由 $\boldsymbol{x}$ 密度可达的所有样本组合的集合，即形成一个聚类簇。最后，簇划分确定后，数据集 $D$ 中不属于任何簇的样本，通常看作“噪声”或“异常样本”。
- 输入：样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ ；邻域参数 $(\epsilon,MinPts)$ .
  算法流程：
  （1）初始化核心对象集合 $\Omega=\varnothing$ .
  （2）遍历每个样本，确定该样本是否是核心对象：
  
  对于样本 $\boldsymbol{x}_j$ ，若 $|N_{\epsilon}(\boldsymbol{x}_j)|\geq MinPts$ ，则该样本是核心对象，更新 $\Omega=\Omega\bigcup\{\boldsymbol{x}_j\}$ .
  （3）根据核心对象的密度可达关系，确定每一个聚类簇：
  
  a.）随机选取一个核心对象初始化队列 $Q$ ，初始化未访问样本集 $\Gamma=D$ ，
  b.）取 $Q$ 的首个元素，考查其 $\epsilon$ 邻域内的样本点是否已被划分到某个簇：若未被划分到某个簇，则加入当前簇；若已被划分到某个簇，则continue，
  c.）考查该邻域内的样本点是否是核心对象：如果是，则进一步根据密度可达关系扩张，获得外围样本点，回到b.）进一步考察；如果不是，则停止.
  
  层次聚类
  
  层次聚类是在“不同层次”对数据集进行划分，形成“树形的聚类结构”。数据集的划分方式：（1）“自底向上”聚合（2）“自顶向下”分拆。
  
  AGNES自底向上聚合的层次聚类算法
  
  该算法初始将每个样本看成一个聚类簇，每一步对“距离最近的两个聚类簇”合并，重复以上过程直到达到预设的聚类簇个数。
  计算聚类簇间距离的不同定义：
  
  $最小距离： d min (C i, C j) = min x \in C i, z \in C j d i s t (x, z) 最大距离： d max (C i, C j) = max x \in C i, z \in C j d i s t (x, z) 平均距离： d a v g (C i, C j) = 1 | C i | | C j | \sum x \in C i \sum z \in C j d i s t (x, z)$ $\begin{matrix} 最小距离：\displaystyle d_{\min}(C_i,C_j)=\min\limits_{\boldsymbol{x}\in C_{i},\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z}) \\ 最大距离：\displaystyle d_{\max}(C_i,C_j)=\max\limits_{\boldsymbol{x}\in C_{i},\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z}) \\ 平均距离：\displaystyle d_{avg}(C_i,C_j)=\frac{1}{|C_i||C_j|}\sum\limits_{\boldsymbol{x}\in C_{i}}\sum\limits_{\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z})\\ \end{matrix}$
  输入：样本集 $D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}$ ；聚类簇聚类度量函数 $d$ ；聚类簇数 $k$ .
  算法流程：
  （1）初始化，每个样本作为一个聚类簇 $C_j=\{\boldsymbol{x}_j\}，j=1,2,\cdots,m$ .
  （2）遍历每个样本，计算距离矩阵：
  
  对于任意两个样本，计算距离，得距离矩阵 $M(i,j)=d(C_i,C_j)，M(i,j)=M(j,i)，j>i$ .
  （3）若聚类簇个数大于预计聚类簇数，则合并距离最近的两个聚类簇，更新距离矩阵：
  
  a.）找到距离最近的两个聚类簇 $C_{i^*}$ 和 $C_{j^*}$ ，合并得 $C_{i^*}=C_{i^*}\bigcup C_{j^*}$ ，
  b.）对编号在 $j^*$ 后的聚类簇重新编号，即编号往前减1，
  c.）删除距离矩阵的第 $j^*$ 行和第 $j^*$ 列，对新划分的聚类簇计算距离矩阵.
  （4）重复以上过程（3），直到聚类簇聚合到预期聚类簇数，停止迭代.