背景:
向量降维是一个在多维数据分析中常见的过程,它允许我们将高维数据转换为更低维度的空间,同时尽可能保留原始数据的重要特征。这个过程通常通过向量的投影来实现,即将高维向量投影到一个低维的子空间上。
假设有一个N维向量,我们想要将它映射到一个M维的子空间中,其中M<N。这个子空间由M个基向量定义,这些基向量是互相正交(或者正交归一化)的,可以表示为
。
为了将原始的N维向量OA降维到M维空间,我们需要计算OA在(M)每个基向量上的投影。这可以通过点积(也称为内积或标量积)来完成。对于每个基向量ei,我们计算:(i< M)
(注意:乘以 OA 而不是单独的 a1 向量或 a2 向量的原因在于这个表达式的目的是计算原始向量 OA 在基向量 ei 上的投影。这里的 OA 代表的是整个原始向量,它可能是一个多维向量,比如在三维空间中,它可以表示为。在向量降维或者向量投影的上下文中,我们通常处理的是整个向量而不是它的单个分量。基向量 ei 代表了新空间中的一个方向,而通过计算 OA 与每个基向量 ei 的点积(或内积),我们实际上是在计算 OA 在这个新方向上的“长度”或者说投影。这个过程需要考虑 OA 的所有分量,因为我们想知道整个向量 OA 如何相对于新空间的基向量 ei 进行投影。简单来说,使用整个 OA 而不是它的单个分量a1 或 a2,是因为我们的目标是在新的低维空间中重新表示整个原始向量 OA,而这需要考虑 OA 的所有维度。这样,通过计算 OA 与每个基向量的点积,我们可以得到 OA 在新空间中的坐标,即 ′ai′。这是一个从高维空间到低维空间的映射过程,它涉及到整个向量而不仅仅是它的某个单独分量。)
这里的′ai′是OA在基向量ei上的投影的坐标。点积计算了向量OA在基向量ei方向上的分量。重复这个过程对所有的M个基向量进行计算,我们可以得到一个新的M维向量,它是原始N维向量在这个M维子空间中的表示:
从N维空间降维到M维空间时(其中M<N),我们不能保留原始向量的所有信息。降维过程通常会导致一些信息的损失,特别是当原始数据的维度远大于目标维度时。然而,通过选择合适的基向量(例如,在主成分分析中选择方差最大的方向作为基向量),我们可以尽可能多地保留最重要的信息,即使不能保留所有信息。这种方式下,降维后的M维向量尽可能地反映了原始N维向量的关键特征和结构。
本文详细阐述了向量降维的过程,通过将高维向量投影到低维子空间,利用基向量的正交性计算点积,保留关键特征。主成分分析展示了如何选择基向量以最大限度地保存信息。
1万+





