主成分分析中的投影视角与特征向量计算
1. 投影视角下的主成分分析基础
在数据处理中,为了尽可能保留数据信息,同时降低数据维度,主成分分析(PCA)是一种常用的方法。以MNIST训练数据中的所有数字“8”为例,计算数据协方差矩阵的特征值。从相关图示可知,数据协方差矩阵的200个最大特征值中,只有少数显著不为0。这意味着,当将数据投影到对应特征向量所张成的子空间时,大部分方差仅由少数主成分捕获。
为了找到$R^D$中能保留尽可能多信息的$M$维子空间,PCA建议选择矩阵$B$(在特定公式中)的列作为数据协方差矩阵$S$的$M$个与最大特征值相关的特征向量。PCA通过前$M$个主成分所能捕获的最大方差为:
[V_M = \sum_{m=1}^{M} \lambda_m]
其中,$\lambda_m$是数据协方差矩阵$S$的$M$个最大特征值。相应地,通过PCA进行数据压缩所损失的方差为:
[J_M := \sum_{j=M+1}^{D} \lambda_j = V_D - V_M]
我们还可以定义相对捕获方差为$\frac{V_M}{V_D}$,以及压缩损失的相对方差为$1 - \frac{V_M}{V_D}$。
2. 投影视角的引入
前面通过最大化投影空间的方差来推导PCA,接下来从另一个角度出发,关注原始数据$x_n$与其重建数据$\tilde{x}_n$之间的差异向量,并最小化这个距离,使$x_n$和$\tilde{x}_n$尽可能接近。
2.1 设置与目标
假设$R^D$存在一个(有序)标准正交基(ONB)$B = (b_1, \ldots, b_D)$,即$b_i^T
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



