多元分析是多变量的统计分析方法。
聚类分析
聚类分析一般分为Q型聚类分析和R型聚类分析。
- Q型聚类分析是指对样品进行聚类分析
- R型聚类分析是指对变量进行聚类。
根据处理方法的不同聚类分析又分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法。
聚类的一般过程:
- 数据预处理(标准化)
- 构造关系矩阵(亲疏关系的描述)
- 聚类(根据不同方法进行分类)
- 确定最佳分类(类别数)
Q型聚类分析
样本相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用 p p p个变量描述,则每个样本点可以看成是 R p \large R^{p} Rp 空间中的一个点。因此,很自然地想到可以用 距离来度量样本点间的相似程度。
记 Ω \Omega Ω是样本点集,距离 d d d是 Ω × Ω → R + \Omega \times \Omega \rightarrow R^+ Ω×Ω→R+的一个函数,满足条件:
( 1 ) d ( x , y ) ≥ 0 , x , y ∈ Ω (1) d(x,y)\geq0,x,y\in\Omega\\ (1)d(x,y)≥0,x,y∈Ω
( 2 ) d ( x , y ) = 0 当 且 仅 当 x = y (2) d(x,y)=0当且仅当x=y (2)d(x,y)=0当且仅当x=y
( 3 ) d ( x , y ) = d ( y , x ) , x , y ∈ Ω (3) d(x,y)=d(y,x),x,y\in\Omega (3)d(x,y)=d(y,x),x,y∈Ω
( 4 ) d ( x , y ) ≤ d ( x , z ) + d ( z , y ) , x , y , z ∈ Ω (4) d(x,y)\leq d(x,z)+d(z,y),x,y,z\in\Omega (4)d(x,y)≤d(x,z)+d(z,y),x,y,z∈Ω
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。
在聚类分析中,对于定量变量,常用的闵氏(Minkowski)距离、绝对值距离、欧氏距离、切比雪夫距离。
闵氏距离
d q ( x , y ) = [ ∑ k = 1 p ∣ x k − y k ∣ q ] 1 q , q > 0 d_q(x,y)=[\sum_{k=1}^p|x_k-y_k|^q]^{\frac{1}{q}},q>0 dq(x,y)=[k=1∑p∣xk−yk∣q]q1,q>0

在 Minkowski 距离中,常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下:
马氏距离
d ( x , y ) = ( x − y ) T Σ − 1 ( x − y ) d(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)} d(x,y)=(x−y)TΣ−1(x−y)
其中 x , y x,y x,y为来自 p p p维总体 Z Z Z的样本观测值; Σ \Sigma Σ为 Z Z Z的协方差矩阵,实际中 Σ \Sigma Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。
类与类间的相似性度量
如果有两个样本类 G 1 G_1 G1和 G 2 G_2 G2,可以用下面的一系列方法度量它们间的距离:
(1)最短距离法

(2)最长距离法

(3)重心法

(4)类平均法

(5)离差平方和法

事实上,若 G 1 , G 2 G_1,G_2 G1,G2内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即 D 12 D_{12} D12很大),这时必然有 D = D 12 − D 1 − D 2 D=D_{12}-D_1-D_2 D=D12−D1−D2很大。因此,按定义可以认为,两类 G 1 , G 2 G_1,G_2 G1,G2之间的距离很大。离差平方和法初是由 Ward 在 1936 年提出,后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。
聚类图
Q型聚类结果可由一个聚类图展示出来:


生成聚类图

案例
Q型聚类例子参考博客:
matlab Q型聚类分析例题
Q型聚类分析
R型聚类
变量相似性度量
对变量进行聚类分析,首先要确定变量的相似性度量,常用的变量相似性度量有两张:
相关系数

对变量进行聚类分析的时候,利用相关系数矩阵是最多的。
夹角余弦

各种定义的相似度量均应具有以下两个性质:

变量聚类法
类似样本集合聚类分析中最常用的最短距离法、最长距离法,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最长距离法、最短距离法。
最长距离法
在最长距离法中,定义两类变量的距离为:
R ( G 1 , G 2 ) = m a x x j ∈ G 1 , x k ∈ G 2 ∣ d j k ∣ R(G_1,G_2)=max_{x_j\in G_1,x_k\in G_2}|d_{jk}| R(G1,G2)=maxxj∈G1,xk∈G2∣djk∣
式子中: d j k = 1 − ∣ r j k ∣ d_{jk}=1-|r_{jk}| djk=1−∣rjk∣或者 d j k 2 = 1 − r j k 2 d_{jk}^2=1-r_{jk}^2 djk2=1−rjk2,这时, R ( G 1 , G 2 ) R(G_1,G_2) R(G1,G2)与两类中相似性最小的两变量间的相似性度量值有关。
最短距离法
在最短距离法中,定义两类变量的距离为:
R ( G 1 , G 2 ) = m i n x j ∈ G 1 , x k ∈ G 2 ∣ d j k ∣ R(G_1,G_2)=min_{x_j\in G_1,x_k\in G_2}|d_{jk}| R(G1,G2)=minxj∈G1,xk∈G2∣djk∣
式子中: d j k = 1 − ∣ r j k ∣ d_{jk}=1-|r_{jk}| djk=1−∣rjk∣或者 d j k 2 = 1 − r j k 2 d_{jk}^2=1-r_{jk}^2 djk2=1−rjk2,这时, R ( G 1 , G 2 ) R(G_1,G_2) R(G1,G2)与两类中相似性最大的两变量间的相似性度量值有关。

最低0.47元/天 解锁文章
1742

被折叠的 条评论
为什么被折叠?



