在主成分分析系列(一)概览及数据为何要中心化这篇文章中介绍了PCA算法的大概想法及数据为何要中心化,在这篇文章具体推导PCA算法的过程。
1. 首先 PCA 最原始的想法是:
-
设 V \mathbf{V} V 为 d {d} d 维 线性空间(即 R d \mathbb{R}^d Rd), W \mathbf{W} W 为 V \mathbf{V} V 的 k k k 维线性子空间( k < d k<d k<d)。在 W \mathbf{W} W 中找到数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={ x1,x2,…xn} 最准确的表达。 x i ∈ R d , i = 1 , … , n \mathbf{x_i} \in \mathbb{R}^d, i = 1,\dots,n xi∈Rd,i=1,…,n
-
一组 d d d 维向量 { e 1 , e 2 , … , e k } \{\mathbf {e_1,e_2,…,e_k}\} { e1,e2,…,ek},它形成 W \mathbf {W} W的一组正交基 。在 W \mathbf{W} W空间中的任何向量都可以被表示为 ∑ i = 1 k α i e i \sum_{i=1}^{k}\alpha_i \mathbf{e}_{i} ∑i=1kαiei
-
那么向量 x 1 \mathbf{x_1} x1可以被表示为
∑ i = 1 k α 1 i e i \sum_{i=1}^{k}\alpha_{1i} \mathbf{e}_{i}
PCA算法详解:寻找数据的最大方差方向

PCA(主成分分析)是一种数据分析方法,通过找到数据集中方差最大的方向来降维。它涉及将数据投影到一个低维子空间,该子空间由数据scatter矩阵的特征向量定义,这些特征向量对应于最大的特征值。PCA首先要求数据中心化,然后计算scatter矩阵,接着找到其特征向量和特征值。最大的k个特征向量构成新空间的基,数据点在这个新基下的投影就是PCA的近似。这种方法用于数据压缩和可视化,但不适用于分类问题,因为它关注的是数据的变异性而非分类信息。
最低0.47元/天 解锁文章
5793

被折叠的 条评论
为什么被折叠?



