聚类分析问题描述
聚类分析问题描述
人类认识世界的方法之一就是将事物按照各种属性或特征分成若干类别。
物以类聚、人以群分。分类方法多种多样,简单直接的如高、矮、胖瘦。使用的信息量小,但对类别界限附近的案例,分类结果不一定合适。
为了满足更高的分类要求,对研究对象需用更多的特征变量来刻画。如要想把中国的县分类,就有多种方法,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。
引例:20种啤酒的热量、钠含量、酒精及价格四种变量。如何找到数据中隐藏的模式特征?
![![[Pasted image 20240822160347.png]]](https://i-blog.csdnimg.cn/direct/1fc4ec7c55c34401b2828f92ca699d25.png)
整理好的数据具有如下结构:
![![[Pasted image 20240822160424.png]]](https://i-blog.csdnimg.cn/direct/9c538f5d43ef4461ba2bcadf7acb3022.png)
xix_{i}xi是特征变量,可能是分类变量(如民族、性别),也可能是数值变量(如
身高体重),单位量纲也不相同。每个对象用一个p维特征向量来刻画。
任意两各随机变量
X=(x1,x2,…,xn)T, Y=(y1,y2,…,yn)T X=(x_{1},x_{2},\dots,x_{n})^{T},\ Y=(y_{1},y_{2},\dots ,y_{n})^{T} X=(x1,x2,…,xn)T, Y=(y1,y2,…,yn)T
的协方差
cov(X,Y)=1n∑i=1n(xi−xˉ)(yi−yˉ) cov(X, Y)=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)
P维特征向量(X1,X2,…,Xp)(X_{1},X_{2},\dots,X_{p})(X1,X2,…,Xp)的协方差矩阵
∑=(v(x1)c(X1,X2)…c(X1,Xp)c(X1,X2)v(X2)…c(X2,Xp)…………c(X,Xpc(X2,Xp)…v(Xp)) \sum=\begin{pmatrix} v(x_{1})&&c(X_{1},X_{2})&&\dots&&c(X_{1},X_{p}) \\ c(X_{1},X_{2})&&v(X_{2})&&\dots&&c(X_{2},X_{p}) \\ \dots&&\dots&&\dots&&\dots \\ c(X,X_{p}&&c(X_{2},X_{p})&&\dots&&v(X_{p}) \end{pmatrix} ∑=
v(x1)c(X1,X2)…c(X,Xpc(X1,X2)v(X2)…c(X2,Xp)…………c(X1,Xp)c(X2,Xp)…v(Xp)
聚类分析(clusteranalysis)就是基于数据自身信息来对数据进行分类的方法(也称为无监督学习)。
在聚类分析之前,研究者不知道观察对象可以分成多少个类,类的特点也无所得知。在分类的过程中,聚类分析能够从样本数据出发,自动进行分类。
不同研究者对于同一组数据进行聚类分析,所得到的聚类结果未必一致,因此聚类分析是一种探索性的分析方法。
聚类分析的数学描述
假设
Xi=(xi1,xi2,…,xip),i=1,2,…n X_{i}=(x_{i1},x_{i2},\dots,x_{ip}),\quad i=1,2,\dots n Xi=(xi1,x

最低0.47元/天 解锁文章
3212

被折叠的 条评论
为什么被折叠?



