[机器学习入门第九章]聚类_使用聚类的结果作为分类的训练集-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42523037/article/details/121213697

本文深入介绍了无监督学习中的聚类方法，包括K均值、学习向量量化（LVQ）和密度聚类（DBSCAN）。K均值通过迭代更新均值找到聚类，LVQ适用于带标签的数据，而DBSCAN利用样本密度来发现聚类结构。此外，还讨论了聚类性能度量和距离计算方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

9.1聚类任务

常见的无监督学习中最有名的是聚类（clustering）方法。（其他还有密度估计，异常检测)
聚类试图将数据划分成若干不相交的子集，每个子集称为“簇”（cluster)，其对应的标签需要人工标记。
聚类既可以单独分析数据的内部分布结构，也可以作为分类的前驱。比如商家有一大批用户数据，可以通过聚类，将用于划分成不同的类型，再机遇这些类训练分类模型。

9.2性能度量

性能度量也指”有效性指标（validity index)“.用性能度量来评估聚类效果，也可通过性能度量优化聚类过程。
对数据集 D = { $x_1,x_2,....,x_m$ },假定通过聚类给出的簇划分为C={ $C_1,C_2,...C_k$ },参考模型划分的簇 $C^*$ ={ $C_1^*,C_2^*,....,C_s^*$ },相应的，令 $\lambda$ 和 $\lambda^*$ 分别表示C和 $C^*$ 的簇标记。
定义：
$=(x_i,x_j) , \lambda_i = \lambda_j,\lambda^*_i = \lambda^*_j ,i<j$
$=(x_i,x_j) , \lambda_i = \lambda_j,\lambda^*_i \neq \lambda^*_j ,i<j$
$=(x_i,x_j) , \lambda_i \neq \lambda_j,\lambda^*_i = \lambda^*_j,i<j$
$=(x_i,x_j) , \lambda_i \neq \lambda_j,\lambda^*_i \neq\lambda^*_j,i<j$

对数据x两辆配对，显然a+b+c+d = m*(m-1)/2
常用性能度量外部指标

Jaccard 指数（JC)
$\frac{a}{a+b+c}$
FM指数（FMI)
$\sqrt{\frac{a}{a+b}*\frac{a}{a+c}}$
Rand指数（RI)
$\frac{2(a+d)}{m*(m-1)}$
对k个簇 $C = (C_1,C-2,...C_k)$ 我们来定义
$\frac{2}{|C|(|C|-1)} \sum dist(x_i,x_j), 1<i<j<|C|$
$diam(C) = max_{1<=i<j<=|C|}dis(x_i,x_j)$
$d_{min}(C_i,C_j) =min_{x_i\in C_i,x_j \in C_j}dist(x_i,x_j)$
$d_{cen}(C_i,C_j) = dist(\mu_i,\mu_j)$
以下为性能度量内部指标
DB指数
$\frac{1}{k}\sum_{i=1}^kmax（\frac{(avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)}）$
Dunn指数（DI)
$=min[min(\frac{d_{min}(C_i,C_j)}{max_{1<=l<=k}diam(C_l)})]$

9.3距离计算

对函数 $d i s t (，)$ 要满足非负，同零，对称，三角不等式。
给定样本 $x_i=(x_{i1},x_{i2},......,x_{in})$ 和 $x_j=(x_{j1},x_{j2},......,x_{jn})$
闵可夫斯基距离：
$dist_{mk}(x_i,x_j) = (\sum_{u=1}^n |x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$
当p = 2,是欧式距离
当p = 1,是曼哈顿距离

9.4原型聚类

原型聚类：算法对原型进行初始化，然后对原型进行迭代更新。

9.4.1K均值算法

给定样本集
K-means
——————————————————————————————————
输入：样本集合D = { $x_1,x_2,.....x_m$ }
聚类簇数k
过程：
1.从D中随机选择k个样本作为初始均值向量{ $\mu_1,\mu_2,......,\mu_k$ }
2.DO WHILE
3. $\quad令C_i = \emptyset$ (1<=i<=k)
4. $\quad$ FOR j = 1,2,3,…m
5. $\qquad$ 计算样本 $x_j$ 与各均值向量 $\mu_i$ 的距离 $d_{ij} = |x_j-\mu_i|_2;$
6. $\qquad$ 根据距离最近的均值向量确定 $x_j$ 的簇标记： $\lambda_j = argmin_id_{ji};$
7. $\qquad$ 将样本 $x_j$ 划入对应的簇 $C_{\lambda_j}=C_{\lambda_j}\cup x_j$
8. $\quad$ END
9. $\quad$ FOR i = 1,2,3,…k,
10. $\qquad$ 计算新均值向量： $\mu_i^{'} = \frac{1}{|C_i|}\sum_{x\in C_i}x$
11. $\qquad$ IF $\mu_i^{'}\neq \mu_i$ then
12. $\qquad$ 将向量值 $\mu_i$ 更新为 $\mu_i^{'}$
13. $\qquad$ END if
14. $\quad$ END for
15.UNTIL 当前向量均值均未更新

输出：簇划分 $C$ ={ $C_2,C_2,...C_k$ }
——————————————————————————————————

9.4.2学习向量量化

与k均值算法类似，学习向量量化(Learning Vector Quantization)LVQ假设样本带有标记
LVQ的目标是学得一组n维原型向量{ $p_1,p_2,...p_q$ }
——————————————————————————————————
输入：样本集D ={ $x_1,y_1), (x_2,y_2),......,(x_m,y_m)$ } （y是样本x的类别标记）
$\qquad$ 原型个数q,各原型的类别标记是{ $t_1,t_2....t_q$ }
$\qquad$ 学习率 $\eta \in (0,1)$
过程：
1.初始化一组原型向量{ $p_1,p_2,...p_q$ }
2.DO WHILE
3. $\quad$ 从样本集D中随机选取样本 $x_j,y_j)$
4. $\quad$ 计算样本 $x_j$ 和 $p_i$ (1<=i<=q)的距离 $d_{ij} = ||x_j-p_i||_2$
5. $\quad$ 找出与 $x_j$ 距离最近的原型向量 $p_{i*},i^*=argmin_id_{ij}$
6. $\quad$ IF $y_j = t_{i*}$ then
7. $\qquad$ $p^{'} = p_{i*}+\eta(x_j-p_{i*})$
8. $\quad$ else
9. $\qquad$ $p^{'} = p_{i*}-\eta(x_j-p_{i*})$
10. $\quad$ END IF
11. $\quad$ 将向量 $p_{i*}$ 更新为 $p^{'}$
12.UNTIL 满足停止条件
——————————————————————————————————

9.4.3高斯混合聚类（mixture of gaussian cluster)（待完成）

需要预备知识EM算法和高斯分布、拉格朗日乘子,暂时跳过，周六周日集中解决

预备知识：多元高斯分布,对n维样本空间 $\chi$ 中的随机变量x，如果x服从高斯分布，其概率密度函数为：
$\frac{1}{(2\pi)^{n/2}|\sum|}$

9.5密度聚类

密度聚类也称为“基于密度的聚类（density-based clustering)“，此类算法假设聚类结构能通过样本分布的紧密程度确定，通常情况下，密度聚类算法从样本密度的角度来考察样本的可连接性，并且基于可连接样本不断扩展聚类簇与获得最终的聚类效果。
DBSCAN它基于一组邻域参数来刻画样本分布的紧密程度，给定数据集合D={x1,x2,…,xm},
定义下面几个概念

$\epsilon$ -邻域 :对 $x_j\in D,其$ $\epsilon$ -邻域包含样本集D中与 $x_j$ 距离不大于 $\epsilon$ 的样本，形式化 $N_{\epsilon}(x_j) = (x_i\in D|dist(x_i,x_j)<=\epsilon)$
核心对象（core-object)
如果 $x_j$ 的 $\epsilon$ 邻域至少包含MinPts个样本，则 $x_j$ 是一个核心对象。形式化｜N｜>=MinPts
密度直达
xj位于xi的 $\epsilon$ 邻域，而且xi是核心对象，则xj和xi密度直达
密度可达
对xi和xj，如果存在样本序列p1,p2,…pn,其中xi =p1, xj = pn,而且 $p_{i}$ 和 $p_{i+1}$ 密度直达
密度相连
对xi和xj，存在xk使得xi和xj均由xk密度可达，则称xi和xj密度相连。
基于这些概念，DBSCAN将簇定义为：由密度可达关系导出的最大的密度相连样本集合。形式化，给定参数（ $\epsilon$ ,MinPts)可定义簇C
连接性（connectivity）：（不影响以下内容，略过）
最大性（maximality）：(不影响阅读，略过)
因此从核心对象出发寻找的所有样本组成的集合X满足连接性和最大性。

DBSCAN先选任一个核心对象为种子。
DBSCAN algorithm
—————————————————————————————————
输入：样本集D = { $x_1,x_2,.....,x_m$ }
$\qquad$ 邻域参数 ( $\epsilon,MinPts$ )
过程：
1.初始化核心对象集合 $\Omega = \emptyset$
2.FOR j = 1,2,…m
3. $\quad$ 确定样本 $x_j$ 的 $\epsilon$ 邻域 $N(x_j)$
4. $\quad$ IF |N( $x_j$ | >=MinPts THEN
5. $\qquad$ 将x加入到核心对象集合 $\Omega =\Omega \cup x_j$
6. $\quad$ END IF
7.END FOR
8.初始化聚类簇数 k = 0;
9.初始化未访问样本集合 $\Gamma = D$
10.WHILE $\Omega\neq\emptyset$
11. $\quad$ 记录当前未访问样本集合
12. $\quad$ 随机选取一个核心对象core $\in \Omega$ ,初始化队列Q
13. $\quad$ 将core从 $\Gamma$ 中去除
14. $\quad$ WHILE $Q\neq\empty$
15. $\qquad$ 取出队头q
16. $\qquad$ IF $∣ N (q) ∣ > = M i n P t s$ THEN
17. $\qquad$
—————————————————————————————————