多维尺度分析:原理、方法与应用
1. 引言
在多元数据分析中,变量之间的接近性或相似性度量是一个核心概念。例如,在普通的经验正交函数(EOF)或主成分分析(PCA)中,协方差(或相关)矩阵就体现了变量对之间的协变程度,相关系数实际上就是变量间接近性的一种度量。当数据以变量间的距离形式给出,而非实际坐标或时间变化时,就引出了多维尺度分析(MDS)的概念。
MDS 是一种基于点间距离重构数据点配置的几何方法,它能揭示高维数据中隐藏的结构,是一种将高维数据中的接近性在低维空间中可视化的探索性技术。该方法最初于 20 世纪 30 年代中期在心理学领域由Schoenberg提出,后来经过多位学者的发展,被推广到社会学、经济学和气象学等多个领域。MDS 不仅是一种接近性可视化方法,也是一种像 PCA 一样的降维方法。
2. 相异度度量
MDS 的起点是一组点间距离,即一个包含所有成对相似性的矩阵。欧几里得距离是相异度度量的一个特殊情况,但一般来说,相异度不一定是通常意义上的欧几里得距离。
一个 $n×n$ 的矩阵 $D = (d_{ij})$ 若满足对称、$d_{ij} ≥ 0$ 且 $d_{ii} = 0$($i, j = 1, 2, …, n$),则它是一个距离矩阵。相异度度量的选择通常取决于数据类型和具体问题。
对于连续数据等定量测量,常见的相异度度量包括 Minkowski 距离:
[d_{ij} = |x_i - x_j| {\lambda} = \left(\sum {k=1}^{n} |x_{ik} - x_{jk}|^{\lambda}\right)^{\frac{1}{\lamb
超级会员免费看
订阅专栏 解锁全文
5972

被折叠的 条评论
为什么被折叠?



