[Machine Learning]聚类任务、性能度量、距离计算

聚类任务与性能度量

最新推荐文章于 2024-07-16 15:04:57 发布

原创最新推荐文章于 2024-07-16 15:04:57 发布 · 771 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Machine Learning #聚类 #距离 #机器学习 #周志华

machine learning 同时被 3 个专栏收录

1 篇文章

订阅专栏

周志华

1 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

本文探讨了聚类任务的本质，介绍了外部指标与内部指标两种聚类性能度量方法，详细解析了Jaccard系数、FM指数、Rand指数、DB指数及Dunn指数，并阐述了距离计算的重要性。

[Machine Learning]聚类任务、性能度量、距离计算

一、聚类任务
二、性能度量
- 2.1、“外部指标”（external index）
- 2.2、“内部指标”（internal index）
三、距离计算

Note:本文系笔者学习机器学习过程中的学习笔记，期间加有个人的见解，如有错误，欢迎评论区留言讨论，共同进步。
非监督学习

一、聚类任务

聚类，即根据数据的“相似性”将数据集中的样本划分成若干个通常是不相交的子集，每一个子集称为一个**“簇”（cluster）**；需注意，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。

形式化地说，假定样本集 $D{\rm{ = \{ }}{{\rm{x}}_1}{\rm{,}}{{\rm{x}}_2}{\rm{,}}...{\rm{,}}{{\rm{x}}_m}{\rm{\} }}$ 包含 $m$ 个无标记样本，每个样本 ${x_i} = ({x_{i1}};{x_{i2}};...;{x_{in}})$ 是一个 $n$ 维特征向量，则聚类算法将文本集 $D$ 划分为 $k$ 个不相交的簇 ${ {C_l}|l = 1,2,...,k\}$ ，其中 ${C_{l'}}{ \cap _{l' \ne l}}{C_l} = \emptyset$ 且 $D{\rm{ = }} \cup _{l = 1}^k{C_l}$ .相应地，我们用 ${\lambda _j} \in \{ 1,2,...,k\}$ 表示样本 ${x_j}$ 的**“簇标记”（cluster label）**，即 ${x_j} \in {C_{{\lambda _j}}}$ .于是，聚类的结果可用包含 $m$ 个元素的簇标记向量 $\lambda = ({\lambda _1};{\lambda _2};...;{\lambda _m})$ 表示。

评估两个不同样本之间的“相似性”（即性能度量），通常使用的方法就是计算两个样本之间的“距离”（即距离计算）。使用不同的方法计算样本之间的距离会关系到聚类结果的好坏。

二、性能度量

性能度量，即聚类的有效性指标（validity index）。根据聚类任务，我们希望得到的聚类结果是“簇内相似度”（intra-cluster similarity）高且“簇间相似度”（inter-cluster similarity）低。
在这里插入图片描述

2.1、“外部指标”（external index）

对于数据集 $D{\rm{ = \{ }}{{\rm{x}}_1}{\rm{,}}{{\rm{x}}_2}{\rm{,}}...{\rm{,}}{{\rm{x}}_m}{\rm{\} }}$ ，假定通过聚类给出的簇划分为 $C = \{ {C_1},{C_2},...,{C_k}\}$ ，参考模型给出的簇划分为 ${C^*} = \{ C_1^*,C_2^*,...,C_s^*\}$ .相应地，令 $\lambda$ 与 ${\lambda ^*}$ 分别表示与 $C$ 和 ${C^*}$ 对应的簇标记向量.我们将样本两两配对考虑，定义
$\left| {SS} \right|,SS = \{ ({x_i},{x_j})|{\lambda _i} = {\lambda _j},\lambda _i^* = \lambda _j^*,i < j\} ,$ $\left| {SD} \right|,SD = \{ ({x_i},{x_j})|{\lambda _i} = {\lambda _j},\lambda _i^* \ne \lambda _j^*,i < j\} ,$ $\left| {DS} \right|,DS = \{ ({x_i},{x_j})|{\lambda _i} \ne {\lambda _j},\lambda _i^* = \lambda _j^*,i < j\} ,$ $\left| {DD} \right|,DD = \{ ({x_i},{x_j})|{\lambda _i} \ne {\lambda _j},\lambda _i^* \ne \lambda _j^*,i < j\} ,$ 注：由于每个样本对 ${x_i},{x_j})(i<j)$ 仅能出现在一个集合中，因此有 $a + b + c + d = m (m - 1) / 2$ 成立。
一般地，我们有以下常用的聚类性能度量外部指标：

$J a c c a r d$ 系数（Jaccard Coefficient，简称JC） $\over {a + b + c}}$
$F M$ 指数（Fowlkes and Mallows Index，简称FMI） $\sqrt {{a \over {a + b}} \cdot {a \over {a + c}}}$
$R a n d$ 指数（Rand Index，简称RI） $\over {m(m - 1)}}$
综上，上述性能度量的结果值均在 $[0, 1]$ 区间，值越大越好。

2.2、“内部指标”（internal index）

对于聚类结果的簇划分 $C = \{ {C_1},{C_2},...,{C_k}\}$ ，定义 $\over {\left| C \right|(\left| C \right| - 1)}}\sum\nolimits_{1 \le i < j \le \left| C \right|} {dist({x_i},{x_j})}$ ${\max _{1 \le i < j \le \left| C \right|}}dist({x_i},{x_j})$ ${d_{\min }}({C_i},{C_j}) = {\min _{{x_i} \in {C_i},{x_j} \in {C_j}}}dist({x_i},{x_j})$ ${d_{cen}}({C_i},{C_j}) = dist({\mu _i},{\mu _j})$
其中， $dist \cdot , \cdot )$ 计算两个样本之间的距离； $\mu$ 代表簇 $C$ 的中心点 $\mu = {1 \over {\left| C \right|}}\sum\nolimits_{1 \le i \le \left| C \right|} {{x_i}}$ .显然， $a v g (C)$ 对应于簇 $C$ 内样本间的平均距离， $d i a m (C)$ 对应于簇 $C$ 内样本间的最远距离， ${d_{\min }}({C_i},{C_j})$ 对应于簇 ${C_i}$ 与簇 ${C_j}$ 最近样本间的距离， ${d_{cen}}({C_i},{C_j})$ 对应于簇 ${C_i}$ 与簇 ${C_j}$ 中心点间的距离.
一般地，我们有如下常用聚类性能度量内部指标：

$D B$ 指数（Davies-Bouldin Index，简称DBI） $\over k}\sum\limits_{i = 1}^k {\mathop {\max }\limits_{j \ne i} \left( {{{avg({C_i}) + avg({C_j})} \over {{d_{cen}}({\mu _i},{\mu _j})}}} \right)}$
$D u n n$ 指数（Dunn Index，简称DI） $\mathop {\min }\limits_{1 \le i \le k} \{ \mathop {\min }\limits_{j \ne k} ({{{d_{\min }}({C_i},{C_j})} \over {{{\max }_{1 \le l \le k}}diam({C_l})}})\}$
综上， $D B I$ 值越小越好， $D I$ 值越大越好。

三、距离计算

3.1、距离度量

对于 $dist \cdot , \cdot )$ ，其距离度量（distance measure）满足：

非负性： $dist({x_i},{x_j}) \ge 0$
同一性： $dist({x_i},{x_j}) = 0$ ，当且仅当 ${x_i}={x_j}$
对称性： $dist({x_i},{x_j}) = dist({x_j},{x_i})$
直递性（三角不等式）： $dist({x_i},{x_j}) \le dist({x_i},{x_k}) + dist({x_k},{x_j})$

3.2、闵可夫斯基距离及其推广

对于给定样本 ${x_i} = ({x_{i1}};{x_{i2}};...;{x_{in}})$ 与 ${x_j} = ({x_{j1}};{x_{j2}};...;{x_{jn}})$ ，有闵可夫斯基距离（Minkowski distance）： $dis{t_{mk}}({x_i},{x_j}) = {\left( {\sum\limits_{u = 1}^n {\left| {{x_{iu}} - {x_{ju}}} \right|} } \right)^{{1 \over p}}}$ 即 ${x_{i}} - {x_{j}}$ 的 ${L_p}$ 范数 ${\left\| {{x_i} - {x_j}} \right\|_2}$ ;对 $\ge 1$ ，显然满足距离度量的基本性质。
有如下推广：
$p = 2$ 时为欧氏距离： $dis{t_{ed}}({x_i},{x_j}) = {\left\| {{x_i} - {x_j}} \right\|_2} = \sqrt {\sum\limits_{u = 1}^n {{{\left| {{x_{iu}} - {x_{ju}}} \right|}^2}} }$ $p = 1$ 时为曼哈顿距离： $dis{t_{man}}({x_i},{x_j}) = {\left\| {{x_i} - {x_j}} \right\|_1} = \sum\limits_{u = 1}^n {\left| {{x_{iu}} - {x_{ju}}} \right|}$