聚类算法（一）

最新推荐文章于 2023-12-10 20:42:37 发布

原创最新推荐文章于 2023-12-10 20:42:37 发布 · 2.2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #clustering

机器学习同时被 2 个专栏收录

9 篇文章

订阅专栏

聚类算法

3 篇文章

订阅专栏

本文主要介绍聚类算法的原理、聚类分析的两个基本问题：性能度量和距离计算，聚类分析中类个数的确定方法与原则，以及进行聚类分析前的数据中心化和标准化变换处理。

一、概述

聚类（Clustering）是一种无监督学习（Unsupervised Learning），即训练样本的标记信息是未知的。聚类既可以通过对无标记训练样本的学习来揭示数据的内在性质及规律，找寻数据内在的分布结构，也可以作为分类等其他学习任务的前驱任务，为进一步的数据分析提供基础。
主要的聚类算法可以划分为如下几类：划分聚类、层次聚类、密度聚类、网格聚类以及模型聚类。后续会抽取部分进行详细介绍。
聚类算法原理：输入一组未被标记的样本，根据数据自身的距离或相似度划分为若干组，划分的原则是组内距离最小化而组间距离最大化。聚类分析涉及两个基本问题——性能度量和距离计算。

二、性能度量

聚类性能度量亦称聚类“有效性指标”（Validity Index），其作用包括：通过某种性能度量来评估算法好坏；明确最终将要使用的性能度量，可以直接将其作为聚类过程的优化目标，从而得到更符合要求的聚类结果。
聚类将样本集D划分为互不相交的子集，这里成为样本簇，要达到的目标为“簇内相似度”高且“簇间相似度”低。

聚类性能度量大致有两类：

将聚类结果与某个“参考模型”进行比较，称为“外部指标”；
直接考察聚类结果而不利用任何参考模型，称为“内部指标”。

1.外部指标

对数据集 $D=\{X_1, X_2,…,X_m\}$ ，假定通过聚类给出的簇划分为 $C=\{C_1, C_2…,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C^*_1, C^*_2, …,C^*_s\}$ ，令 $λ$ 与 $λ^*$ 分别表示与 $C$ 和 $C^*$ 对应的簇标记向量。将样本两两配对考虑，定义：
这里写图片描述
其中：
集合 $SS$ 包含了在 $C$ 中隶属于相同簇且在 $C^*$ 中也隶属于相同簇的样本对；
集合 $SD$ 包含了在 $C$ 中隶属于相同簇但在 $C^*$ 中隶属于不同簇的样本对；
集合 $SD$ 包含了在 $C^*$ 中隶属于相同簇但在 $C$ 中隶属于不同簇的样本对；
集合 $DD$ 包含了在 $C$ 中隶属于不同簇且在 $C^*$ 中也隶属于不同簇的样本对。
由于每个样本对仅能出现在一个集合中，因此有 $a+b+c+d=m(m-1)/2$ 成立。

基于上述表达式，有以下常用的聚类性能衡量外部指标：
这里写图片描述
上述性能指标结果值均在[0，1]区间，且越大越好。

2.内部指标

对数据集 $D=\{X_1, X_2,…,X_m\}$ ，假定通过聚类给出的簇划分为 $C=\{C_1, C_2…,C_k\}$ ，定义：
这里写图片描述
其中：
$dist()$ 用于计算两个样本之间的距离；
$u$ 代表簇 $C$ 的中心点；
$avg(C)$ 对应于簇 $C$ 内样本间的平均距离；
$diam(C)$ 对应于簇 $C$ 内样本的最远距离；
$d_{min}(C_i,C_j)$ 对应于簇 $C_i$ 和 $C_j$ 最近样本间的距离；
$d_{cen}(C_i,C_j)$ 对应于簇 $C_i$ 和 $C_j$ 中心点之间的距离.