聚类分析简介

原创

已于 2022-07-06 13:53:03 修改 · 4.8k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #算法 #机器学习

于 2021-04-21 19:44:27 首次发布

本文探讨了无监督学习中的聚类分析，包括距离度量（如Minkowski、Euclidean等）和常用聚类算法（如K-means、MiniBatchK-means、K-means++、bi-kmeans和PAM），重点介绍了层次聚类和DBSCAN方法。此外，文章还涵盖了聚类指标如纯度、SSE和RI，以及评估标准和适用场景。

文章目录

一、简介
二、聚类分析
三、DBSCAN聚类分法
四、聚类指标
- 4.1 外部评价标准
- 4.2 内部评价标准

聚类	分类
无监督模式	有监督
不高度重视训练集	高度重视训练集
目的是找出相似的数据	目的是确认数据属于哪个类别
通常不涉及预测	通常需要预测

一、简介

聚类分析是无监督学习的一种，只需要数据，不需要标记结果，它可以把大量的观测值依据某种规则规约为若干个类，每个类内的观测值相似，每个类间的差异较大。

二、聚类分析

聚类分析思路很简单，总的来看可以分为2个环节——距离度量和聚类算法，即选定一种方式来计算数据点之间的距离，然后选用聚类算法进行聚类分析。

1. 距离度量

对于不同的数据类型，可选择的距离度量的方法主要有以下几种：

1.1 数值变量

数值变量是非常常见的一种变量，像人的身高、体重等等。假设 $X=(x_1, x_2, \cdots, x_p)$ , $Y=(y_1, y_2, \cdots, y_p)$ 是两个数值型的观测值，可以选择以下几种方法度量它们的距离：

Minkowski 距离： $=^q\sqrt{|x_1-y_1|^q+|x_2-y_2|^q+\cdots+|x_p-y_p|^q}$
Euclidean 距离：是Minkowski距离 $q = 2$ 时的特例, 是常见的欧式距离 $=\sqrt{|x_1-y_1|^2+|x_2-y_2|^2+\cdots+|x_p-y_p|^2}$

最低0.47元/天解锁文章