主成分分析全面解析
1. 主成分分析基础公式
主成分分析(PCA)有一些基础的公式关系。对于(m)个主成分与第(i)个变量(x_i),存在以下关系:
(\sum_{i = 1}^{m} \sigma_{ii} \rho^2(y_k, x_i) = \sum_{i = 1}^{m} \lambda_k \alpha_{ik}^2 = \lambda_k \alpha_k^T \alpha_k = \lambda_k)
同时,(m)个主成分与第(i)个变量(x_i)的因子载荷满足:
(\sum_{k = 1}^{m} \rho^2(y_k, x_i) = 1)
这是因为(y_1, y_2, \cdots, y_m)相互无关,且(x_i)可以表示为(y_1, y_2, \cdots, y_m)的线性组合,所以(x_i)与((y_1, y_2, \cdots, y_m))的相关系数的平方为(1),即(\rho^2(x_i, (y_1, y_2, \cdots, y_m)) = 1)。
2. 主成分数量的选择
PCA的主要目的是降维,通常选择(k (k \ll m))个主成分(线性无关变量)来替代(m)个原始变量(线性相关变量),这样可以简化问题并保留原始变量的大部分信息,这里的信息指的是原始变量的方差。
定理16.2证明选择主成分的最优性
设对于任何正整数(q)((1 \ll q \ll m)),考虑正交线性变换(y = B^T x),其中(y)是(q)维向量,(B^T)是(q \times m)矩阵,(y)的协方差矩阵为(\Sigma_y = B^T \Sigma B)。当(B = A_q)(矩阵(
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



