数学建模|多元分析(一)

多元分析是多变量的统计分析方法。

聚类分析

聚类分析一般分为Q型聚类分析和R型聚类分析。

  • Q型聚类分析是指对样品进行聚类分析
  • R型聚类分析是指对变量进行聚类。

根据处理方法的不同聚类分析又分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法。

聚类的一般过程:

  1. 数据预处理(标准化)
  2. 构造关系矩阵(亲疏关系的描述)
  3. 聚类(根据不同方法进行分类)
  4. 确定最佳分类(类别数)

Q型聚类分析

样本相似性度量

要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用 p p p个变量描述,则每个样本点可以看成是 R p \large R^{p} Rp 空间中的一个点。因此,很自然地想到可以用 距离来度量样本点间的相似程度。

Ω \Omega Ω是样本点集,距离 d d d Ω × Ω → R + \Omega \times \Omega \rightarrow R^+ Ω×ΩR+的一个函数,满足条件:

( 1 ) d ( x , y ) ≥ 0 , x , y ∈ Ω (1) d(x,y)\geq0,x,y\in\Omega\\ (1)d(x,y)0,x,yΩ

( 2 ) d ( x , y ) = 0 当 且 仅 当 x = y (2) d(x,y)=0当且仅当x=y (2)d(x,y)=0x=y

( 3 ) d ( x , y ) = d ( y , x ) , x , y ∈ Ω (3) d(x,y)=d(y,x),x,y\in\Omega (3)d(x,y)=d(y,x),x,yΩ

( 4 ) d ( x , y ) ≤ d ( x , z ) + d ( z , y ) , x , y , z ∈ Ω (4) d(x,y)\leq d(x,z)+d(z,y),x,y,z\in\Omega (4)d(x,y)d(x,z)+d(z,y),x,y,zΩ

这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。
在聚类分析中,对于定量变量,常用的闵氏(Minkowski)距离、绝对值距离、欧氏距离、切比雪夫距离。

闵氏距离

d q ( x , y ) = [ ∑ k = 1 p ∣ x k − y k ∣ q ] 1 q , q > 0 d_q(x,y)=[\sum_{k=1}^p|x_k-y_k|^q]^{\frac{1}{q}},q>0 dq(x,y)=[k=1pxkykq]q1,q>0

在这里插入图片描述

在 Minkowski 距离中,常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下:

马氏距离

d ( x , y ) = ( x − y ) T Σ − 1 ( x − y ) d(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)} d(x,y)=(xy)TΣ1(xy)

其中 x , y x,y x,y为来自 p p p维总体 Z Z Z的样本观测值; Σ \Sigma Σ Z Z Z的协方差矩阵,实际中 Σ \Sigma Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。

类与类间的相似性度量

如果有两个样本类 G 1 G_1 G1 G 2 G_2 G2,可以用下面的一系列方法度量它们间的距离:

(1)最短距离法

在这里插入图片描述

(2)最长距离法

在这里插入图片描述

(3)重心法

在这里插入图片描述

(4)类平均法

在这里插入图片描述

(5)离差平方和法

在这里插入图片描述

事实上,若 G 1 , G 2 G_1,G_2 G1,G2内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即 D 12 D_{12} D12很大),这时必然有 D = D 12 − D 1 − D 2 D=D_{12}-D_1-D_2 D=D12D1D2很大。因此,按定义可以认为,两类 G 1 , G 2 G_1,G_2 G1,G2之间的距离很大。离差平方和法初是由 Ward 在 1936 年提出,后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。

聚类图

Q型聚类结果可由一个聚类图展示出来:

在这里插入图片描述

在这里插入图片描述

生成聚类图

在这里插入图片描述

案例

Q型聚类例子参考博客:
matlab Q型聚类分析例题
Q型聚类分析

R型聚类

变量相似性度量

对变量进行聚类分析,首先要确定变量的相似性度量,常用的变量相似性度量有两张:

相关系数

在这里插入图片描述

对变量进行聚类分析的时候,利用相关系数矩阵是最多的。

夹角余弦

在这里插入图片描述

各种定义的相似度量均应具有以下两个性质:

在这里插入图片描述

变量聚类法

类似样本集合聚类分析中最常用的最短距离法、最长距离法,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最长距离法、最短距离法。

最长距离法

在最长距离法中,定义两类变量的距离为:

R ( G 1 , G 2 ) = m a x x j ∈ G 1 , x k ∈ G 2 ∣ d j k ∣ R(G_1,G_2)=max_{x_j\in G_1,x_k\in G_2}|d_{jk}| R(G1G2)=maxxjG1,xkG2djk

式子中: d j k = 1 − ∣ r j k ∣ d_{jk}=1-|r_{jk}| djk=1rjk或者 d j k 2 = 1 − r j k 2 d_{jk}^2=1-r_{jk}^2 djk2=1rjk2,这时, R ( G 1 , G 2 ) R(G_1,G_2) R(G1G2)与两类中相似性最小的两变量间的相似性度量值有关。

最短距离法

在最短距离法中,定义两类变量的距离为:

R ( G 1 , G 2 ) = m i n x j ∈ G 1 , x k ∈ G 2 ∣ d j k ∣ R(G_1,G_2)=min_{x_j\in G_1,x_k\in G_2}|d_{jk}| R(G1G2)=minxjG1,xkG2djk

式子中: d j k = 1 − ∣ r j k ∣ d_{jk}=1-|r_{jk}| djk=1rjk或者 d j k 2 = 1 − r j k 2 d_{jk}^2=1-r_{jk}^2 djk2=1rjk2,这时, R ( G 1 , G 2 ) R(G_1,G_2) R(G1G2)与两类中相似性最大的两变量间的相似性度量值有关。

案例

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值