Chapter 10 Cluster Analysis
本篇是第十章,内容是聚类分析。由于之后的几章是典型的分析方法。而且在14章的案例里面可能不会体现,所以内容里会渗透较多的R语言操作。由于简书不支持Latex公式,这篇彻头彻尾又是各种数学公式,为防整篇博客都变成截图,我就把内容进行了删减。
这篇博客的完整内容包含各类数学表达。可以见我优快云和hexo搭的个人博客。
优快云博客
1 多元分布基本概念
在研究实际问题的时候,我们经常遇到的是多变量的问题,由于指标间相互不独立,单独割裂开来分别研究分析,不能从整体上把握所研究问题的实质。所以我们必须对多元变量及其分布进行统计和分析,在地学领域这种问题比比皆是,这里就不展开阐述了,接下来是一堆纯数学概念,数学恐惧者慎入,这部分的重点应该是关于协方差矩阵。一般来说,假设所研究的问题有p个指标,进行了n次独立观测,得到了np个数据。
分布函数的性质
非降的右连续函数
分布函数的取值范围为[0,1]
分布函数当变量取值为无穷大时,函数值收敛到1
多元概率密度函数
协方差矩阵
相关系数矩阵
2 数据的变换处理
数据变换是将原始数据矩阵中的每个元素按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。事实上多元数据的变换处理通常是为了消除不同量纲的差异。
较常用的数据变换如下:
中心化变换
中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。
中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n-1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n-1)倍,所以这是一种很方便地计算方差与协方差的变换。
极差规格化变换
极差规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。经过极差规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0和1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。
标准化变换
标准化变换首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。经过标准化变换处理后,数据矩阵中每列数据即每个变量的平均值为0,方差为1,且不再具有量纲,便于不同变量之间的比较。变换后,数据矩阵中任何两列数据乘积之和是所对应的两个变量相关系数的( n-1)倍,所以这是一种很方便地计算相关矩阵的变换。
对数变换
对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。
3 聚类分析
聚类分析是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。
聚类的目的——根据已知数据( 一批观察个体的许多观测指标) , 按照一定的数学公式计算各观察个体或变量(指标)之间亲疏关系的统计量(距离或相关系数等)。 根据某种准则( 最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。
聚类的种类——
根据分类的方法可将聚类分析分为:系统聚类、快速聚类、有序聚类。
根据分类的对象可将聚类分析分为:Q型——样品聚类clustering for individuals;R型——指标聚类clustering for variables。
数据结构
4 样品间亲疏程度的测度
样品间亲疏程度的测度
研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点属于不同的类。
变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。
距离
假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点, n个样品