分类与回归主要是为了预测,而聚类是关注当前的“分类整理”。
聚类的概念与度量
分类与回归主要是为了预测,而聚类是关注当前,其任务为: 将 m m m个样本“合理地分到” k k k类中。
聚类与分类的区别
聚类与分类有些相似,但又有很大的不同。
分类是知道了类的标识,在样例的指导下进行的,而聚类是不知道类的标识,仅知道类别的个数(有时,也不知道,那时就把它作为超参数,事先设定)。 没有样例来指导,那以什么为依据呢?实际上,它是遵循“物以类聚”的原则,设想你是一个仓库的管理员,你一定是依物品的某些相似性将物品分类管理,而相似性的度量称为“距离”,能“聚”在一起说明“距离”亲近,一个“聚”字,体现了聚类有大小、“距离”有亲疏。
由于聚类是以“距离”为依据,而“距离”的定义又有多种多样,因此,要确定聚类需要先确定两条:一是采用什么“距离”,二是以多大的“距离”来聚,这二者都是超参数,有很大的自由度。 就象你“脱单”了想邀亲朋好友庆祝一下,你得拍下脑袋思考:是以你的名义还是以你父母的名义(定义“距离”),是来一次小聚还是来一次大聚(定义入围“距离”的大小)。
由聚类而分出的类,视为对空间的划分,形成一个结构,而对划分出的各“块”的命名,有时并不关心。 为区分聚类与分类中的“类”(class),常将聚类划分出的子集称为“簇”(cluster)。
性能度量
在分类和回归任务时,关注的是预测效果,即要对泛化性能进行度量,而聚类任务则是度量有效性。 前者由于有比较的依据(有指导学习),所以可以通过比较去谈误差、谈损失、谈查准率和召回率等等,各自与“基准”比较。 而后者没有“基准”(即:聚类是“无指导”的学习,但显然没有指导就不知道对错,就不可能学习。 实际上,它还是“有指导”的,只不过其“指导”是隐性的,不是直接“指导”,如,样本间的相似度是由已有数据来确定的),只能用呈现的结构状态进行相互间比较,通常从两个角度来分析:簇内相似度高,簇间相似度低。
(1)外部指标:依参考模型 C ∗ C^* C∗来评价模型 C C C。
列出样本的划分情况(属于哪簇:
x
i
\boldsymbol{x}_i
xi在参考模型
C
∗
C^*
C∗中属于簇
λ
i
∗
{\lambda }_i^*
λi∗,在评价模型
C
C
C中属于簇
λ
i
{\lambda }_i
λi),形成表9.1。
再进行统计,得统计数据(如
x
1
,
x
2
\boldsymbol{x}_1,\boldsymbol{x}_2
x1,x2,若在参考模型
C
∗
C^*
C∗中
λ
1
∗
=
λ
2
∗
{\lambda }_1^*={\lambda }_2^*
λ1∗=λ2∗、在评价模型
C
C
C中
λ
1
=
λ
2
{\lambda }_1={\lambda }_2
λ1=λ2,则计入表9.2的
a
a
a项,其他类推),形成表9.2。
由表9.2定义外部指标【西瓜书式(9.5) ∼ \,\thicksim ∼(9.7)】。
(2)内部指标:没有参考模型,以距离来刻划相似度。
簇
C
t
C_t
Ct中样本的个数记为
∣
C
t
∣
,
(
t
=
1
,
2
,
⋯
,
K
)
|C_t|,(t=1,2,\cdots,K)
∣Ct∣,(t=1,2,⋯,K),则
C
t
C_t
Ct中两两配对样本
(
x
i
,
x
j
)
,
(
1
⩽
i
<
j
⩽
∣
C
t
∣
)
(\boldsymbol{x}_i,\boldsymbol{x}_j),(1\leqslant i<j\leqslant |C_t|)
(xi,xj),(1⩽i<j⩽∣Ct∣),其组合数为:
1
2
∣
C
t
∣
(
∣
C
t
∣
−
1
)
\frac{1}{2}|C_t|(|C_t|-1)
21∣Ct∣(∣Ct∣−1)。 由此可定义簇
C
t
C_t
Ct中两两的平均距离【西瓜书式(9.8)】,即
a
v
g
(
C
t
)
=
2
∣
C
t
∣
(
∣
C
t
∣
−
1
)
∑
x
i
,
x
j
∈
C
t
1
⩽
i
<
j
⩽
∣
C
t
∣
d
i
s
t
(
x
i
,
x
j
)
\begin{align} \mathrm{avg}(C_t)=\frac{2}{|C_t|(|C_t|-1)}\sum_{\substack{\boldsymbol{x}_i,\boldsymbol{x}_j \in C_t \\ 1\leqslant i<j\leqslant |C_t|}}\mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{9.1} \end{align}
avg(Ct)=∣Ct∣(∣Ct∣−1)2xi,xj∈Ct1⩽i<j⩽∣Ct∣∑dist(xi,xj)(9.1)
其中,
d
i
s
t
(
x
i
,
x
j
)
\mathrm{dist}(\boldsymbol{x}_i,\boldsymbol{x}_j)
dist(xi,xj)为两样本之间的距离。
进一步地,可定义【西瓜书式(9.9) ∼ \,\thicksim ∼(9.11)】,其中, a v g ( C t ) , d i a m ( C t ) \mathrm{avg}(C_t),\mathrm{diam}(C_t) avg(Ct),diam(Ct)是对簇 C t C_t Ct的大小的度量(平均距离,最大直径),而 d min ( C i , C j ) , d c e n ( C i , C j ) d_{\min}(C_i,C_j),d_{\mathrm{cen}}(C_i,C_j) dmin(Ci,Cj),dcen(Ci,Cj)是对两簇之间关系的度量(最近距离,中心点间距离)。
有了这些对簇的度量,我们就可以定义常用的内部指标(指数)【西瓜书式(9.12) ∼ \,\thicksim ∼(9.13)】。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:8.7 多样性(“好而不同”)
下一篇:9.2 k均值算法、学习向量量化算法