(《机器学习》完整版系列)第9章 聚类——9.1 聚类的概念与度量

文章探讨了聚类与分类的区别,聚类关注于无监督的数据组织,依据“距离”或相似性将样本分组。分类则是有监督的学习,依赖已知类别标签。聚类的性能度量包括外部指标(参考模型对比)和内部指标(基于数据本身的结构)。文章还提到了k均值算法和学习向量量化等主题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类与回归主要是为了预测,而聚类是关注当前的“分类整理”。

聚类的概念与度量

分类与回归主要是为了预测,而聚类是关注当前,其任务为: 将 m m m个样本“合理地分到” k k k类中。

聚类与分类的区别

聚类与分类有些相似,但又有很大的不同。

分类是知道了类的标识,在样例的指导下进行的,而聚类是不知道类的标识,仅知道类别的个数(有时,也不知道,那时就把它作为超参数,事先设定)。 没有样例来指导,那以什么为依据呢?实际上,它是遵循“物以类聚”的原则,设想你是一个仓库的管理员,你一定是依物品的某些相似性将物品分类管理,而相似性的度量称为“距离”,能“聚”在一起说明“距离”亲近,一个“聚”字,体现了聚类有大小、“距离”有亲疏。

由于聚类是以“距离”为依据,而“距离”的定义又有多种多样,因此,要确定聚类需要先确定两条:一是采用什么“距离”,二是以多大的“距离”来聚,这二者都是超参数,有很大的自由度。 就象你“脱单”了想邀亲朋好友庆祝一下,你得拍下脑袋思考:是以你的名义还是以你父母的名义(定义“距离”),是来一次小聚还是来一次大聚(定义入围“距离”的大小)。

由聚类而分出的类,视为对空间的划分,形成一个结构,而对划分出的各“块”的命名,有时并不关心。 为区分聚类与分类中的“类”(class),常将聚类划分出的子集称为“簇”(cluster)。

性能度量

在分类和回归任务时,关注的是预测效果,即要对泛化性能进行度量,而聚类任务则是度量有效性。 前者由于有比较的依据(有指导学习),所以可以通过比较去谈误差、谈损失、谈查准率和召回率等等,各自与“基准”比较。 而后者没有“基准”(即:聚类是“无指导”的学习,但显然没有指导就不知道对错,就不可能学习。 实际上,它还是“有指导”的,只不过其“指导”是隐性的,不是直接“指导”,如,样本间的相似度是由已有数据来确定的),只能用呈现的结构状态进行相互间比较,通常从两个角度来分析:簇内相似度高,簇间相似度低。

(1)外部指标:依参考模型 C ∗ C^* C来评价模型 C C C

列出样本的划分情况(属于哪簇: x i \boldsymbol{x}_i xi在参考模型 C ∗ C^* C中属于簇 λ i ∗ {\lambda }_i^* λi,在评价模型 C C C中属于簇 λ i {\lambda }_i λi),形成表9.1。

再进行统计,得统计数据(如 x 1 , x 2 \boldsymbol{x}_1,\boldsymbol{x}_2 x1,x2,若在参考模型 C ∗ C^* C λ 1 ∗ = λ 2 ∗ {\lambda }_1^*={\lambda }_2^* λ1=λ2、在评价模型 C C C λ 1 = λ 2 {\lambda }_1={\lambda }_2 λ1=λ2,则计入表9.2的 a a a项,其他类推),形成表9.2。

由表9.2定义外部指标【西瓜书式(9.5)   ∼ \,\thicksim (9.7)】。

(2)内部指标:没有参考模型,以距离来刻划相似度。

C t C_t Ct中样本的个数记为 ∣ C t ∣ , ( t = 1 , 2 , ⋯   , K ) |C_t|,(t=1,2,\cdots,K) Ct,(t=1,2,,K),则 C t C_t Ct中两两配对样本 ( x i , x j ) , ( 1 ⩽ i < j ⩽ ∣ C t ∣ ) (\boldsymbol{x}_i,\boldsymbol{x}_j),(1\leqslant i<j\leqslant |C_t|) (xi,xj),(1i<jCt),其组合数为: 1 2 ∣ C t ∣ ( ∣ C t ∣ − 1 ) \frac{1}{2}|C_t|(|C_t|-1) 21Ct(Ct1)。 由此可定义簇 C t C_t Ct中两两的平均距离【西瓜书式(9.8)】,即
a v g ( C t ) = 2 ∣ C t ∣ ( ∣ C t ∣ − 1 ) ∑ x i , x j ∈ C t 1 ⩽ i < j ⩽ ∣ C t ∣ d i s t ( x i , x j ) \begin{align} \mathrm{avg}(C_t)=\frac{2}{|C_t|(|C_t|-1)}\sum_{\substack{\boldsymbol{x}_i,\boldsymbol{x}_j \in C_t \\ 1\leqslant i<j\leqslant |C_t|}}\mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{9.1} \end{align} avg(Ct)=Ct(Ct1)2xi,xjCt1i<jCtdist(xi,xj)(9.1)
其中, d i s t ( x i , x j ) \mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j) dist(xi,xj)为两样本之间的距离。

进一步地,可定义【西瓜书式(9.9)   ∼ \,\thicksim (9.11)】,其中, a v g ( C t ) , d i a m ( C t ) \mathrm{avg}(C_t),\mathrm{diam}(C_t) avg(Ct),diam(Ct)是对簇 C t C_t Ct的大小的度量(平均距离,最大直径),而 d min ⁡ ( C i , C j ) , d c e n ( C i , C j ) d_{\min}(C_i,C_j),d_{\mathrm{cen}}(C_i,C_j) dmin(Ci,Cj),dcen(Ci,Cj)是对两簇之间关系的度量(最近距离,中心点间距离)。

有了这些对簇的度量,我们就可以定义常用的内部指标(指数)【西瓜书式(9.12)   ∼ \,\thicksim (9.13)】。

本文为原创,您可以:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值