由于在文章主成分分析系列(二)为何特征向量是主成分中提到的 数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={ x1,x2,…xn} 的scatter矩阵 S \mathbf{S} S矩阵跟协方差( covariance )矩阵 Σ \Sigma Σ仅仅相差一个标量系数 n − 1 n-1 n−1。下面用协方差矩阵 Σ \Sigma Σ进行描述。
1. v T Σ v \mathbf{v}^{T}\Sigma\mathbf{v} vTΣv为什么是投影后数据的方差
数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={
x1,x2,…xn}(注意,数据 D \mathbf{D} D已经零-均值化),将
x 1 , x 2 , … x n \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} x1,x2,…xn 拼成一个大矩阵 X \mathbf{X} X
X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n\times d} X∈Rn×d
则协方差矩阵 Σ \Sigma Σ= 1 n − 1 X T X \frac{1}{n-1}\mathbf{X}^T\mathbf{X} n−11XTX
根据简单的线性代数知识,向量 x i \mathbf{x}_i xi 在单位向量 v \mathbf{v} v上的投影向量是
u i = ( v T x i ) v \mathbf{u}_i=(\mathbf{v}^T\mathbf{x}_i)\mathbf{v} ui=(vTxi)v
投影后数据在投影方向上的方差是
σ ^ 2 = 1 n − 1 ∑ i = 1 n ∣ ∣ ( v T x i ) v − ( v T x ˉ ) v ∣ ∣ 2 2 ( x ˉ : = 0 ) = 1 n − 1 ∑ i = 1 n ∣ ∣ ( v T x i ) v ∣ ∣ 2 2 = 1 n − 1 ∑ i = 1 n ( v T x i ) 2 = 1 n − 1 ( X v ) T X v = 1 n − 1 v T X T X v = v T Σ v \begin{aligned}\hat{\sigma}^2 &=\frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v}-(\mathbf{v}^T\mathbf{\bar{x}})\mathbf{v} \vert \vert ^2_2\quad(\mathbf{\bar{x}} := \mathbf{0})\\ &= \frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v} \vert \vert ^2_2\\ &= \frac{1}{n-1}\sum_{i=1}^{n} (\mathbf{v}^T\mathbf{x}_i)^2\\ &= \frac{1}{n-1}(\mathbf{Xv})^T\mathbf{Xv}\\ &= \frac{1}{n-1}\mathbf{v}^T\mathbf{X}^T\mathbf{Xv}\\ &= \mathbf{v}^T\mathbf{\Sigma}\mathbf{v} \end{aligned} σ^2=n−11i=1∑n∣∣(vTxi)v−(vTxˉ)v∣∣2

文章详细解释了主成分分析(PCA)中,为什么特征值最大的特征向量对应的数据方差最大。首先,通过零均值化后的数据集构建协方差矩阵,然后展示了数据在特征向量上的投影方差计算公式。接着,利用矩阵的谱分解定理,证明了协方差矩阵的特征值与方差的关系,以及如何通过优化问题找到最大化方差的特征向量。最后,从不同角度阐述了方差与协方差矩阵的关系,以及如何计算投影后的数据方差。
最低0.47元/天 解锁文章
916

被折叠的 条评论
为什么被折叠?



