数据分析中的随机矩阵应用
1. 引言
在高维欧几里得空间中,我们常常会思考能否将数据点投影到低维欧几里得空间,同时避免产生较大的失真。主要有两类有趣的投影方式:一是倾向于保留点间距离的投影;二是最大化投影向量平均长度的投影。
距离保留投影在理论计算机科学中影响巨大,它可用于近似最近邻搜索、聚类、学习分布混合以及计算流数据统计等算法场景。其核心思想是,通过提供数据的低维表示,距离保留嵌入能显著加速运行时间与工作空间维度呈指数关系的算法。同时,由于能保证点对间的距离,在低维空间中找到的解决方案通常能很好地近似原始空间中的解。
而最常用的投影方式是最大化投影向量平均长度,以保留数据中的大部分方差。这需要将数据表示为矩阵 A,进行对角化 A = UDV,然后将 A 投影到 U 或 V 中与 D 中最大元素对应的向量所张成的子空间。这种方法的变体包括 Karhunen - Loève 变换、主成分分析(PCA)、奇异值分解(SVD)等。
本文将探讨随机矩阵在这两类投影中的不同应用,其基础事实是:若 R 是一个元素为独立同分布的正态随机变量 N(0, 1) 的随机矩阵,那么矩阵会非常接近正交归一。
2. 欧几里得距离保留
Johnson 和 Lindenstrauss 的经典结果表明,任何一组 n 个点的集合都可以嵌入到低维空间中,使得所有点对间的距离保持在任意小的因子范围内。具体来说,给定 ε 和整数 n,存在一个正整数 k,对于每一组 P 中的 n 个点,都存在一个映射,使得所有点对间的距离满足一定条件。
一种天真的嵌入构造方法是从原始空间中随机选取 k 个坐标,但这种方法可能会失败,因为两个点可能在某个