（《机器学习》完整版系列）第9章聚类——9.1 聚类的概念与度量

本文链接：https://blog.youkuaiyun.com/qiy_icbc/article/details/129294045

文章探讨了聚类与分类的区别，聚类关注于无监督的数据组织，依据“距离”或相似性将样本分组。分类则是有监督的学习，依赖已知类别标签。聚类的性能度量包括外部指标（参考模型对比）和内部指标（基于数据本身的结构）。文章还提到了k均值算法和学习向量量化等主题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分类与回归主要是为了预测，而聚类是关注当前的“分类整理”。

聚类的概念与度量

分类与回归主要是为了预测，而聚类是关注当前，其任务为：将 $m$ 个样本“合理地分到” $k$ 类中。

聚类与分类的区别

聚类与分类有些相似，但又有很大的不同。

分类是知道了类的标识，在样例的指导下进行的，而聚类是不知道类的标识，仅知道类别的个数（有时，也不知道，那时就把它作为超参数，事先设定）。没有样例来指导，那以什么为依据呢？实际上，它是遵循“物以类聚”的原则，设想你是一个仓库的管理员，你一定是依物品的某些相似性将物品分类管理，而相似性的度量称为“距离”，能“聚”在一起说明“距离”亲近，一个“聚”字，体现了聚类有大小、“距离”有亲疏。

由于聚类是以“距离”为依据，而“距离”的定义又有多种多样，因此，要确定聚类需要先确定两条：一是采用什么“距离”，二是以多大的“距离”来聚，这二者都是超参数，有很大的自由度。就象你“脱单”了想邀亲朋好友庆祝一下，你得拍下脑袋思考：是以你的名义还是以你父母的名义（定义“距离”），是来一次小聚还是来一次大聚（定义入围“距离”的大小）。

由聚类而分出的类，视为对空间的划分，形成一个结构，而对划分出的各“块”的命名，有时并不关心。为区分聚类与分类中的“类”（class），常将聚类划分出的子集称为“簇”（cluster）。

性能度量

在分类和回归任务时，关注的是预测效果，即要对泛化性能进行度量，而聚类任务则是度量有效性。前者由于有比较的依据（有指导学习），所以可以通过比较去谈误差、谈损失、谈查准率和召回率等等，各自与“基准”比较。而后者没有“基准”（即：聚类是“无指导”的学习，但显然没有指导就不知道对错，就不可能学习。实际上，它还是“有指导”的，只不过其“指导”是隐性的，不是直接“指导”，如，样本间的相似度是由已有数据来确定的），只能用呈现的结构状态进行相互间比较，通常从两个角度来分析：簇内相似度高，簇间相似度低。

（1）外部指标：依参考模型 $C^*$ 来评价模型 $C$ 。

列出样本的划分情况（属于哪簇： $\boldsymbol{x}_i$ 在参考模型 $C^*$ 中属于簇 ${\lambda }_i^*$ ，在评价模型 $C$ 中属于簇 ${\lambda }_i$ ），形成表9.1。

再进行统计，得统计数据（如 $\boldsymbol{x}_1,\boldsymbol{x}_2$ ，若在参考模型 $C^*$ 中 ${\lambda }_1^*={\lambda }_2^*$ 、在评价模型 $C$ 中 ${\lambda }_1={\lambda }_2$ ，则计入表9.2的 $a$ 项，其他类推），形成表9.2。

由表9.2定义外部指标【西瓜书式(9.5) $\,\thicksim$ (9.7)】。

（2）内部指标：没有参考模型，以距离来刻划相似度。

簇 $C_t$ 中样本的个数记为 $|C_t|,(t=1,2,\cdots,K)$ ，则 $C_t$ 中两两配对样本 $(\boldsymbol{x}_i,\boldsymbol{x}_j),(1\leqslant i<j\leqslant |C_t|)$ ，其组合数为： $\frac{1}{2}|C_t|(|C_t|-1)$ 。由此可定义簇 $C_t$ 中两两的平均距离【西瓜书式(9.8)】，即
$\begin{align} \mathrm{avg}(C_t)=\frac{2}{|C_t|(|C_t|-1)}\sum_{\substack{\boldsymbol{x}_i,\boldsymbol{x}_j \in C_t \\ 1\leqslant i<j\leqslant |C_t|}}\mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{9.1} \end{align}$
其中， $\mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j)$ 为两样本之间的距离。

进一步地，可定义【西瓜书式(9.9) $\,\thicksim$ (9.11)】，其中， $\mathrm{avg}(C_t),\mathrm{diam}(C_t)$ 是对簇 $C_t$ 的大小的度量（平均距离，最大直径），而 $d_{\min}(C_i,C_j),d_{\mathrm{cen}}(C_i,C_j)$ 是对两簇之间关系的度量（最近距离，中心点间距离）。