聚类分析|距离与相似系数|层次聚类|K均值聚类|SPSS及Matlab

聚类分析问题描述

聚类分析问题描述

人类认识世界的方法之一就是将事物按照各种属性或特征分成若干类别。
物以类聚、人以群分。分类方法多种多样,简单直接的如高、矮、胖瘦。使用的信息量小,但对类别界限附近的案例,分类结果不一定合适。
为了满足更高的分类要求,对研究对象需用更多的特征变量来刻画。如要想把中国的县分类,就有多种方法,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。

引例:20种啤酒的热量、钠含量、酒精及价格四种变量。如何找到数据中隐藏的模式特征?
![[Pasted image 20240822160347.png]]
整理好的数据具有如下结构:
![[Pasted image 20240822160424.png]]

xix_{i}xi是特征变量,可能是分类变量(如民族、性别),也可能是数值变量(如
身高体重),单位量纲也不相同。每个对象用一个p维特征向量来刻画。
任意两各随机变量
X=(x1,x2,…,xn)T, Y=(y1,y2,…,yn)T X=(x_{1},x_{2},\dots,x_{n})^{T},\ Y=(y_{1},y_{2},\dots ,y_{n})^{T} X=(x1,x2,,xn)T, Y=(y1,y2,,yn)T
的协方差
cov(X,Y)=1n∑i=1n(xi−xˉ)(yi−yˉ) cov(X, Y)=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) cov(X,Y)=n1i=1n(xixˉ)(yiyˉ)
P维特征向量(X1,X2,…,Xp)(X_{1},X_{2},\dots,X_{p})(X1,X2,,Xp)的协方差矩阵
∑=(v(x1)c(X1,X2)…c(X1,Xp)c(X1,X2)v(X2)…c(X2,Xp)…………c(X,Xpc(X2,Xp)…v(Xp)) \sum=\begin{pmatrix} v(x_{1})&&c(X_{1},X_{2})&&\dots&&c(X_{1},X_{p}) \\ c(X_{1},X_{2})&&v(X_{2})&&\dots&&c(X_{2},X_{p}) \\ \dots&&\dots&&\dots&&\dots \\ c(X,X_{p}&&c(X_{2},X_{p})&&\dots&&v(X_{p}) \end{pmatrix} = v(x1)c(X1,X2)c(X,Xpc(X1,X2)v(X2)c(X2,Xp)c(X1,Xp)c(X2,Xp)v(Xp)
聚类分析(clusteranalysis)就是基于数据自身信息来对数据进行分类的方法(也称为无监督学习)。
在聚类分析之前,研究者不知道观察对象可以分成多少个类,类的特点也无所得知。在分类的过程中,聚类分析能够从样本数据出发,自动进行分类。
不同研究者对于同一组数据进行聚类分析,所得到的聚类结果未必一致,因此聚类分析是一种探索性的分析方法。

聚类分析的数学描述

假设
Xi=(xi1,xi2,…,xip),i=1,2,…n X_{i}=(x_{i1},x_{i2},\dots,x_{ip}),\quad i=1,2,\dots n Xi=(xi1,x

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值