2025年9月17日学习笔记——模式识别与机器学习第11章——非监督学习与聚类

原创已于 2025-09-24 14:57:55 修改 · 848 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #学习 #笔记

于 2025-09-18 11:32:49 首次发布

模式识别与机器学习第11章——非监督学习与聚类

一.引言
- 1.非监督学习
- 2.聚类分析
二.基于相似度度量的聚类方法
三.基于样本概率分布的模型
四.自组织映射（SOM）神经网络

一.引言

1.非监督学习

事先不知道任何样本的类别标号，通过某种算法来把一组位置类别的样本划分成若干类别，这就是非监督模式识别。

2.聚类分析

1.聚类分析即非监督学习模式识别是最典型的非监督学习问题。
2.要使聚类结果有意义，需要对聚类有一定的数学上的要求或假定，这就是聚类的准则。
3.非监督模式识别方法可以分为两类，一类是基于样本的概率分布模型进行聚类划分，如高斯混合模型（书11.2-11.3节）；另一类是直接根据样本间的距离或相似性度量进行聚类，如K均值、模糊k均值，分级聚类等（书11.4-11.6节），还有基于神经网络的聚类划分如SOM模型。

二.基于相似度度量的聚类方法

1.如果不估计样本的概率分布，就无法从概率分布来定义聚类，需要对聚类有其他形式的定义。
2.人们通常根据样本间的某种距离或相似性度量来定义聚类，即把相似地（或者距离近）的样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。
3.分类：动态聚类算法和分级聚类算法

(一)动态聚类算法

动态聚类算法的三个要点：
（1）选定某种距离度量作为样本间的相似性度量。
（2）确定某个评价聚类的准则函数。.
（3）给定某个初始分类，然后用迭代算法找出使准则函数取极值的最好聚类结果。

不同的距离度量方式
1.欧氏距离
2.曼哈顿距离
3.闵可夫斯基距离 $dist_{mk}(x,y)=(\sum_{u=1}^n\mid x_u-y_u\mid^p)^{\frac{1}{p}}$
4.余弦距离 $dist_{\cos}(x,y)=1-\cos(x,y)=1-\frac{x\cdot y}{\|x\|\|y\|}$
5.编辑距离
… …

2.特点：多次迭代，逐步调整类别划分，最终使某准则达到最优。

2.1.1 K均值算法

误差平方和聚类准则

$J_{e}=\sum_{i=1}^{k}\sum_{x\in\Gamma_{i}}\left\|x-m_{i}\right\|^{2}=\sum_{i=1}^{k}J_{i}$
其中 $\Gamma_{i}$ 式第i个聚类， $i = 1, ..., k$ ，其中样本数为 $N_i$ ， $\Gamma_{i}$ 中样本均值为 $m_{i}=\frac{1}{N_{i}}\sum_{x\in\Gamma_{i}}x$

直观理解：
1. $J_e$ 反映了用k个聚类中心代表k个样本子集所带来的总误差平方和
2.k均值算法的目标:最小化 $J_e$

K均值算法的步骤

（1）初始划分k个聚类， $\Gamma_{i}$ ， $i = 1, ..., k$ ，计算 $m_{j}=\frac{1}{\left|\Gamma_{j}\right|}\sum_{x_{i}\in\Gamma_{j}}x_{i}\text{和}J_{e}$
（2）对每一个样本 $x_i$ 计算其到各类中心 $m_j$ 的距离 $\rho_{ij}= \begin{Vmatrix} x_i-m_j \end{Vmatrix}^2\quad j=1,\ldots,k$
（3）更新各类集合 $\Gamma_{j}=\{x_{p}:\rho_{pj}\leq\rho_{pl},\forall l,1\leq l\leq k\}$
（4）重新计算 $m_j，j=1,...,k和J_e$
（5）若连续N次迭代 $J_e$ 不改变，则停止；否则转（2）

这是一个局部搜索算法，并不能保证收敛到全局最优解，即不能保证找到所有可能的聚类划分中误差平方和最小的解。算法结果受到初始划分和样本调整顺序的影响。

1.初始代表点选择

（1）凭经验选择代表点
（2）将全部数据随机分成 $k$ 类，计算每类重心。
（3）用"密度法"选择代表点。
（4）按照样本天然的排列顺序或者将样本随机排序后用前 $c$ 个点作为代表点。
（5）从 $（ c - 1 ）$ 聚类划分问题的解中产生 $c$ 聚类划分问题的代表点。

2.初始分类方法：

（1）选择一批代表点后，其余的点离哪个代表点最近就归入哪一类，从而得到初始分类。
（2）选择一批代表点后，每个代表点自成一类，将样本依顺序归入与其距离最近的代表点的那一类，并立即重新计算该类的重点以代替原来的代表点。然后再计算下一个样本的归类，直到所有的样本都归到相应的类中。
（3）…

3.关于 $k$ 均值方法中的聚类数目 $k$

K均值聚类方法的一个基本前提就是聚类数目 $k$ 是事先给定的，这些在非监督学习问题中并不总是能满足。
（1）根据经验和先验知识确定
（2）根据聚类结构进行估计令 $k = 1, 2, 3, ...,$ 求各自的 $J_e(k)$ 找其中的肘点

样本中内在聚类不一定很紧密，类别之间并不能很好地分开，或者不同类之间样本分布地紧密程度不同会导致不存在明显肘点。
人们在很多应用中采用地是根据领域知识人为指定类别数目。

2.1.2 基于核的动态聚类算法

对于k均值算法，只有类内样本的分布为超球状或接近超球状（即各维特征上的样本方差解近时），才能取得较好的效果；如果样本的分布偏离超球状，则均值就不能很好地代表一个类。
1.一般的可以用核 $K_{j}=k(x,V_{j})$ 来代表一个类 $\Gamma_{j}$ 。 $V_j$ 是参数集，核 $K_j$
可以是一个含本数、一个点集或某种分类模型。

基于核的相似性度量的K均值聚类算法

定义样本 $x$ 到类 $\Gamma_{j}$ (核 $K_j$ ),之间的相似性度量 $\Delta(x,K_{j})$
准则函数
$J_K=\sum_{i=1}^k\sum_{x\in\Gamma_j}\Delta(x,K_j)$
（1）选择初始划分，即将样本集划分为c类，并确定每类的初始核 $K_j$ , $j = 1, 2, ..., c$
（2）按照下列规则
若
$\Delta(x,K_j)=\min_{l=1,\cdots,k}\Delta(x,K_l),\quad\text{则}x\in\Gamma_j$
（3）更新 $K_j$ ， $j = 1, ..., k$ ,若 $K_j$ 不变，则终止；否则转（2）

$k$ 均值可看作 $K_j$ 为 $m_j$ ， $\Delta$ 为欧氏距离下的特例。
$k$ 均值算法用类均值作为核，而以样本到均值的欧氏距离作为距离度量。

2.如果样本分布为椭圆状正态分布，则可以采用正态核函数。
如果各类样本集中在相应的主轴方向的子空间中，可以使用主轴核函数。

2.1.3 克服K-means方法的局限

快速找到高密度点

（二）模糊聚类方法

1.模糊集理论是对传统集合理论的一种推广，在传统集合理论中，一个元素或者属于一个集合，或者不属于一个集合；而对于模糊集来说，每一个元素是以一定的程度属于某个集合，也可以同时以不同的程度属于几个集合。
2.隶属度函数
隶属度函数是表示一个对象 $x$ 隶属于集合A的程度的函数，通常记作 $\mu_{_A}(x)$ ，自变量为所有可能属于A的对象，值域为[0,1]， $\begin{aligned} & 0\leq\mu_{A}(x)\leq1 \\ & \mu_{A}(x)=1\quad\Leftrightarrow\quad x\in A \\ & \mu_{A}(x)=0\quad\Leftrightarrow\quad x\not\in A \end{aligned}$

2.2.1 模糊K均值算法

隶属度函数定义

聚类损失函数
$J_f=\sum_{j=1}^k\sum_{i=1}^n\left[\mu_j(x_i)\right]^b\left\|x_i-m_j\right\|^2$
其中， $b > 1$ 是一个可以控制聚类结果模糊程度的常数。如果 $b - > 1$ ，则算法将得到等同于K均值算法的确定聚类划分；如果 $b$ 趋近于无穷，则算法将得到完全模糊的解，即各类的中心都收敛到所有训练样本的中心，同时所有样本都以等同的概率归属于各个类，因而完全失去分类意义。
1.模糊k均值算法FCM要求一个样本对于各个聚类的隶属度之和为1。 $\sum_{j=1}^k\mu_j(x_i)=1$
在这里插入图片描述

改进的模糊K均值聚类算法

1.对于传统模糊K均值算法，如果某个野值样本远离各类的聚类中心，本来它属于各类的隶属度都很小，会影响迭代的最终结果。为了克服这种缺陷，人们提出了放松的归一化条件，使所有样本对各类的隶属度总和为n。
2.改进的模糊K类算法得到的隶属度有可能会大于一，因此并不是通常意义上的隶属度函数。必要时可以把最终得到的隶属度函数进行归一化处理，这时已不会影响聚类结果。
3.改进的算法具有更好的鲁棒性。
4.确定性K均值算法、模糊K均值算法对聚类中心的初值十分敏感。

（三）分级聚类算法

1.思想：从各类只有一个样本点开始，逐级合并，每级只合并两类，直到最后所有样本都归到一类。
2.算法步骤：
（1）初始化，每个样本形成一个类。
(2)合并：计算任意两个类之间的距离（或相似性），把距离最小的两个类合并为一类，记录下这两个类之间的距离，其余类不变。
（3）重复（2），知道所有样本被合并到两个类中；

聚类过程中逐级考察类间相似度。
距离/相似性度量多种选择，如欧氏距离、相关、曼哈顿距离、…

3.三种方法定义两个类之间的聚类或者相似性度量，也称为类间的连接：
（1）最近距离
$\Delta\left(\Gamma_{i},\Gamma_{j}\right)=\min_{\overset{y\in\Gamma_{i}}{\operatorname*{\tilde{y}\in\Gamma_{j}}}}\delta(y,\tilde{y})$
两类中相距最近的样本间的距离代表两类之间的距离。
（2）最远距离
$\Delta\left(\Gamma_{i},\Gamma_{j}\right)=\max_{ \begin{array} {c}y\in\Gamma_{i} \\ y\in\Gamma_{j} \end{array}}\delta(y,\tilde{y})$
两类中相距最远的样本间的距离代表两类之间的距离。
（3）均值距离
$\Delta\left(\Gamma_i,\Gamma_j\right)=\delta(m_i,m_j)$
两类样本间的平均距离代表两类之间的距离。
4.分级聚类是一种局部搜索的方法。算法对样本中的噪声会比较敏感，个别样本的变动可能会导致聚类结果发生很大变化。

三.基于样本概率分布的模型

3.1 高斯混合模型（GMM模型）

1.假设数据分布是由多个高斯分布混合组成的。
$p(\mathbf{x}\mid\mu,\sum)=\frac{1}{(2\pi)^{d/2}\left|\sum\right|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\mu)^{T}\sum^{-1}(\mathbf{x}-\mu)\right\}$
混合高斯分布：
$p_M(\mathbf{x})=\sum_{i=1}^k\alpha_ip(\mathbf{x}\mid\mu_i,\Sigma_i)$
2.概率视角：它是一种概率生成模型。其假设数据点是由 K 个高斯分布随机生成出来的。其目标是通过数据来估计这些高斯分布的参数（均值、协方差、混合系数）。
3.求解
（1）不知道模型参数 $\{\alpha_{j},\mu_{j},\Sigma_{j}\},j=1,...,k$
（2）利用EM算法求解
-E-step:利用现有参数求类别标签的期望
-M-step:对模型参数进行最大似然估计你，重新估计分布参数。
E-step（expectation）贝叶斯定律求后验期望
$\gamma_{ij}=p_{M}(c_{i}=j\mid\mathbf{x}_{i})=\frac{P(c_{i}=j)p_{M}(\mathbf{x}_{i}\mid y_{i}=j)}{P_{M}(\mathbf{x}_{i})}=\frac{\alpha_{j}p(\mathbf{x}_{i}\mid\mu_{j},\Sigma_{j})}{\sum_{j=1}^{k}\alpha_{j}p(\mathbf{x}_{i}\mid\mu_{j},\Sigma_{j})}$
M（maximization）后验概率最大化
似然函数： $l(D)=\ln(\prod_{i=1}^np_M(\mathbf{x}_i))=\sum_{i=1}^n\ln(\sum_{j=1}^k\alpha_jp(\mathbf{x}_i\mid\mu_j,\Sigma_j))$
约束： $\alpha_{i}\geq0;\sum_{i=1}^{k}\alpha_{i}=1$
用拉格朗日法求解，可以得到： $\alpha_{j}=\frac{1}{n}\sum_{i=1}^{n}\gamma_{ij}$
$\mu_{j}=\frac{\sum_{i=1}^{n}\gamma_{ij}\mathbf{x}_{i}}{\sum_{i=1}^{n}\gamma_{ij}}\quad\Sigma_{j}=\frac{\sum_{i=1}^{n}\gamma_{ij}(\mathbf{x}_{i}-\mu_{j})(\mathbf{x}_{i}-\mu_{j})^{T}}{\sum_{i=1}^{n}\gamma_{ij}}$

GMM聚类算法流程

输入：样本集 $D=\{\mathbf{x}_{_1},\mathbf{x}_{_2},...,\mathbf{x}_{_n}\}$ 高斯混合成分个数 $K$
1.初始化模型参数 $\{\alpha_{j},\mu_{j},\Sigma_{j}\},j=1,...,k$
2.计算
$\hat{\gamma}_{ij}=p_{M}(c_{i}=j\mid\mathbf{x}_{i}),i=1,...,n;j=1,...,k$
3.计算新的
$\{\alpha_{j},\mu_{j},\Sigma_{j}\},j=1,...,k$
4.不满足模型终止条件则返回2，否则5
5.样本类别划分： $c_{i}=\arg\max_{j\in\{1,2,...,k\}}p_{M}(c_{i}=j|\mathbf{x}_{i})$
输出：样本的列表划分结果 $C=\{c_{_1},c_{_2},...,c_{_n}\}$

3.2 混合模型和K-means聚类算法的区别

在这里插入图片描述

四.自组织映射（SOM）神经网络

4.1 SOM网络结构

(1)与前馈型神经网络不同，SOM网络的神经元节点都在同一层上，在一个平面上呈规则排列。
(2)样本特征向量的每一维都通过一定的权值输入到SOM网络的每一个节点上，构成如图所示的结构。
在这里插入图片描述
(3)SOM网络的神经元之间并没有直接的连接，但是在神经元平面上相邻的节点间在学习（训练）过程中有一定的相互影响，构成邻域相互作用，它通常可以随着训练次数的增加逐渐减小。
1.**权值向量：**输入向量连接到某个节点的权值组成的向量。
2.**匹配程度：**一个节点对输入样本的响应强度，就是该节点的权值向量与输入向量的匹配程度。
3.获胜节点：对一个输入样本，在神经元平面上所有的节点中响应最大的节点称作获胜节点。

4.2 SOM学习算法和自组织特性

4.2.1 算法流程

在这里插入图片描述
当达到事先确定的迭代次数，或者邻域缩小到只包含该获胜节点时，停止迭代。
（1）初始化：用小随机数初始化权值向量，各个节点的初始权值不能相等。
（2）在时刻 $t$ 按照给定的顺序或随机顺序加入一个样本，记为 $x (t)$
（3）计算神经元响应，找到当前获胜节点c。
（4）权值竞争学习。对所有神经元节点，用下述准则更新各自的权值
$m_i(t+1)=m_i(t)+\alpha(t)h_{ci}(t)d[x(t),m_i(t)]$
其中 $\alpha(t)$ 是学习的步长， $\cdot , \cdot ]$ 是两个向量间的欧氏距离， $h_{ci}(t)$ 是节点 $i$ 与 $c$ 间的近邻函数值，如果采用方形网格结构，则相当于在节点 $c$ 的周围定义一个矩形邻域范围 $N_c(t)$ ，在该邻域内则 $h_{ci}(t)$ 为1，否则为0。
（5）更新步长 $\alpha(t)$ 和邻域 $N_c(t)$ 通常在算法开始时设置得大一些，而随着时间t的增加单调减小，到算法终止时邻域缩小到只包含最佳节点本身。

一.概念
（1）对于某个输入样本 $x$ ，对应的最佳响应节点即获胜节点 $i$ 会逐渐趋于固定。我们把固定下来的获胜节点 $i$ 称作样本 $x$ 的像，而把样本 $x$ 称作神经元节点 $i$ 的原像。
（2）像密度：统计每个神经元节点上有多少个原向，即有多少个样本映射到该节点，把这个量叫做像密度。