投影寻踪:高维数据探索的有力工具
1. 引言
从高维空间中揭示有趣的结构是一项极具挑战性的任务。人类的感知能力主要局限于三维空间,因此将高维数据映射到低维空间进行可视化检查变得十分必要。在处理像气候系统这样复杂的物理现象时,数据往往具有很高的维度,降维成为理解和分析数据的重要工具。
例如,EOF/PC分析就是一种用于降维的多元探索性数据分析方法。给定数据矩阵X和相关的协方差矩阵S,EOF方法是一种线性投影,其目标是寻找方向a,使得函数 (I (a) = var (Xa) = a^T Sa) 最大化。类似地,还可以找到优化其他标准的方向,这种寻找方向的过程就是多元探索性数据分析中的投影寻踪。
2. 投影寻踪的定义和目的
2.1 什么是投影寻踪
投影寻踪(PP)是一种无监督技术,旨在从高维数据点云中找到“有趣”的低维结构或线性投影。这一投影通过最大化方向a的目标函数 (I (a)) 来实现,该目标函数被称为投影指标。
历史上,PCA和因子分析等传统工具常用于寻找有意义的低维空间,而这些传统工具大多是投影寻踪的特殊情况。与PCA最大化方差不同,投影寻踪通常试图找到有趣且信息丰富的投影,包括聚类、空洞、偏离正态分布、变量之间的非线性关系等。其优化问题为:
[
\begin{cases}
\max I(a) \
s.t. \quad a^T a = 1
\end{cases}
]
这个最大化问题通常难以解析求解,需要通过数值方法解决。
投影寻踪相对于基于点间距离的其他技术(如多维缩放和其他聚类技术)的一个显著优势是它能够忽略非信息性变
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



