聚类分析简介

本文探讨了无监督学习中的聚类分析,包括距离度量(如Minkowski、Euclidean等)和常用聚类算法(如K-means、MiniBatchK-means、K-means++、bi-kmeans和PAM),重点介绍了层次聚类和DBSCAN方法。此外,文章还涵盖了聚类指标如纯度、SSE和RI,以及评估标准和适用场景。

聚类 分类
无监督模式 有监督
不高度重视训练集 高度重视训练集
目的是找出相似的数据 目的是确认数据属于哪个类别
通常不涉及预测 通常需要预测

一、简介

 聚类分析是无监督学习的一种,只需要数据,不需要标记结果,它可以把大量的观测值依据某种规则规约为若干个类,每个类内的观测值相似,每个类间的差异较大。

二、聚类分析

 聚类分析思路很简单,总的来看可以分为2个环节——距离度量聚类算法,即选定一种方式来计算数据点之间的距离,然后选用聚类算法进行聚类分析。

1. 距离度量

 对于不同的数据类型,可选择的距离度量的方法主要有以下几种:

1.1 数值变量

 数值变量是非常常见的一种变量,像人的身高、体重等等。假设 X = ( x 1 , x 2 , ⋯   , x p ) X=(x_1, x_2, \cdots, x_p) X=(x1,x2,,xp), Y = ( y 1 , y 2 , ⋯   , y p ) Y=(y_1, y_2, \cdots, y_p) Y=(y1,y2,,yp)是两个数值型的观测值,可以选择以下几种方法度量它们的距离:

  • Minkowski 距离 d ( X , Y ) = q ∣ x 1 − y 1 ∣ q + ∣ x 2 − y 2 ∣ q + ⋯ + ∣ x p − y p ∣ q d(X, Y) =^q\sqrt{|x_1-y_1|^q+|x_2-y_2|^q+\cdots+|x_p-y_p|^q} d(X,Y)=qx1y1q+x2y2q++xpypq
  • Euclidean 距离:是Minkowski距离 q = 2 q=2 q=2时的特例, 是常见的欧式距离 d ( X , Y ) = ∣ x 1 − y 1 ∣ 2 + ∣ x 2 − y 2 ∣ 2 + ⋯ + ∣ x p − y p ∣ 2 d(X, Y) =\sqrt{|x_1-y_1|^2+|x_2-y_2|^2+\cdots+|x_p-y_p|^2} d(X,Y)=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值