聚类分析(一)
一、系统聚类含义
\qquad聚类分析一般分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样品进行聚类分析,R型聚类分析是指对变量进行聚类。根据处理方法的不同聚类分析又分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法。
\qquad系统聚类法一般步骤如下:
\qquad 1、将每一个样本(或指标)当做单独的一个类,计算每两个类之间的距离;
\qquad 2、将距离最小的两类作为一个新的类,新的类的值根据不同的处理方法计算得出,然后计算每一个类之间的距离。
\qquad 3、重复步骤2,直至所有样本(或指标)全部聚合成一类。
\qquad 4、按照不同的处理方确定分类数的方法,并进行分类。
二、数据要求
\qquad(一)样本与样本之间无顺序可言;
\qquad(二)样本数据无缺失值;
\qquad(三)样本数据是数值型的数据。
\qquad(四)常见的数据变换方法:
\qquad 1.中心变换:xij=xij−xj‾x_{ij}=x_{ij}-\overline{x_j}xij=xij−xj,变换之后新坐标的原点与样本的重心重合,而样本的相对位置没有变。
\qquad 2.标准化变换:xij=xij−xj‾Sjx_{ij}=\frac{x_{ij}-\overline{x_j}}{S_j}xij=Sjxij−xj,变换之后每个变量的样本均值为0,标准差为1,而且变换后的数据与量纲无关。
\qquad 3.极差正规化变换:xij∗=xij−min1≤i≤nxijRjx_{ij}^*=\frac{x_{ij}-min_{1\le i\le n}x_{ij}}{R_j}xij∗=Rjxij−min1≤i≤nxij,变换后数据的在取值范围在[0,1],与量纲无关。
\qquad 4.对数变换:xij∗=log(xij)x_{ij}^*=log(x_{ij})xij∗=log(xij)
\qquad其中:
x‾=1n∑i=1nxij(j=1,2,...,p)\overline{x}=\frac{1}{n}\sum_{i=1}^nx_{ij}(j=1,2,...,p)x=n1i=1∑nxij(j=1,2,...,p)
Sj=1n∑i=1n(xij−xj‾)2(j=1,2,...,p)S_j=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_{ij}-\overline{x_j})^2}\quad (j=1,2,...,p)Sj=n1i=1∑n(xij−xj)2(j=1,2,...,p)
Rj=maxi=1,2,...,pxij−mini=1,2,...,pxijR_j=max_{i=1,2,...,p}x_{ij}-min_{i=1,2,...,p}x_{ij}Rj=maxi=1,2,...,pxij−mini=1,2,...,pxij
三、样品间的距离和相似系数
\qquad如果把nnn个样品(XXX中的nnn个行)看成ppp维空间中的nnn个点,则两个样品之间样品的相似程度可用nnn维空间中两点的距离来度量。令dijd_{ij}dij表示样品X(i)X_{(i)}X(i)和X(j)X_{(j)}X(j)的距离。常用的距离有:
\qquad (一)明氏距离
dij(q)=(∑a=1p∣xia−xja∣q)1/qd_{ij}(q)=(\sum_{a=1}^p|x_{ia}-x_{ja}|^q)^{1/q}dij(q)=(a=1∑p∣xia−xja∣q)1/q
\qquad当q=1q=1q=1时:
dij(1)=∑a=1p∣xia−xja∣即绝对距离d_{ij}(1)=\sum_{a=1}^p|x_{ia}-x_{ja}|\quad即绝对距离dij(1)=a=1∑p∣x