文章目录
| 聚类 | 分类 |
|---|---|
| 无监督模式 | 有监督 |
| 不高度重视训练集 | 高度重视训练集 |
| 目的是找出相似的数据 | 目的是确认数据属于哪个类别 |
| 通常不涉及预测 | 通常需要预测 |
一、简介
聚类分析是无监督学习的一种,只需要数据,不需要标记结果,它可以把大量的观测值依据某种规则规约为若干个类,每个类内的观测值相似,每个类间的差异较大。
二、聚类分析
聚类分析思路很简单,总的来看可以分为2个环节——距离度量和聚类算法,即选定一种方式来计算数据点之间的距离,然后选用聚类算法进行聚类分析。
1. 距离度量
对于不同的数据类型,可选择的距离度量的方法主要有以下几种:
1.1 数值变量
数值变量是非常常见的一种变量,像人的身高、体重等等。假设 X = ( x 1 , x 2 , ⋯ , x p ) X=(x_1, x_2, \cdots, x_p) X=(x1,x2,⋯,xp), Y = ( y 1 , y 2 , ⋯ , y p ) Y=(y_1, y_2, \cdots, y_p) Y=(y1,y2,⋯,yp)是两个数值型的观测值,可以选择以下几种方法度量它们的距离:
- Minkowski 距离: d ( X , Y ) = q ∣ x 1 − y 1 ∣ q + ∣ x 2 − y 2 ∣ q + ⋯ + ∣ x p − y p ∣ q d(X, Y) =^q\sqrt{|x_1-y_1|^q+|x_2-y_2|^q+\cdots+|x_p-y_p|^q} d(X,Y)=q∣x1−y1∣q+∣x2−y2∣q+⋯+∣xp−yp∣q
- Euclidean 距离:是Minkowski距离 q = 2 q=2 q=2时的特例, 是常见的欧式距离 d ( X , Y ) = ∣ x 1 − y 1 ∣ 2 + ∣ x 2 − y 2 ∣ 2 + ⋯ + ∣ x p − y p ∣ 2 d(X, Y) =\sqrt{|x_1-y_1|^2+|x_2-y_2|^2+\cdots+|x_p-y_p|^2} d(X,Y)=

本文探讨了无监督学习中的聚类分析,包括距离度量(如Minkowski、Euclidean等)和常用聚类算法(如K-means、MiniBatchK-means、K-means++、bi-kmeans和PAM),重点介绍了层次聚类和DBSCAN方法。此外,文章还涵盖了聚类指标如纯度、SSE和RI,以及评估标准和适用场景。
最低0.47元/天 解锁文章
1482

被折叠的 条评论
为什么被折叠?



