主成分分析系列(三)为何协方差矩阵的特征值越大对应的特征向量方向的方差越大

文章详细解释了主成分分析(PCA)中,为什么特征值最大的特征向量对应的数据方差最大。首先,通过零均值化后的数据集构建协方差矩阵,然后展示了数据在特征向量上的投影方差计算公式。接着,利用矩阵的谱分解定理,证明了协方差矩阵的特征值与方差的关系,以及如何通过优化问题找到最大化方差的特征向量。最后,从不同角度阐述了方差与协方差矩阵的关系,以及如何计算投影后的数据方差。

由于在文章主成分分析系列(二)为何特征向量是主成分中提到的 数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={ x1,x2,xn} 的scatter矩阵 S \mathbf{S} S矩阵跟协方差( covariance )矩阵 Σ \Sigma Σ仅仅相差一个标量系数 n − 1 n-1 n1。下面用协方差矩阵 Σ \Sigma Σ进行描述。

1. v T Σ v \mathbf{v}^{T}\Sigma\mathbf{v} vTΣv为什么是投影后数据的方差

数据 D = { x 1 , x 2 , … x n } \mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \} D={ x1,x2,xn}(注意,数据 D \mathbf{D} D已经零-均值化),将
x 1 , x 2 , … x n \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} x1,x2,xn 拼成一个大矩阵 X \mathbf{X} X
X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n\times d} XRn×d
则协方差矩阵 Σ \Sigma Σ= 1 n − 1 X T X \frac{1}{n-1}\mathbf{X}^T\mathbf{X} n11XTX

根据简单的线性代数知识,向量 x i \mathbf{x}_i xi 在单位向量 v \mathbf{v} v上的投影向量是
u i = ( v T x i ) v \mathbf{u}_i=(\mathbf{v}^T\mathbf{x}_i)\mathbf{v} ui=(vTxi)v
投影后数据在投影方向上的方差是
σ ^ 2 = 1 n − 1 ∑ i = 1 n ∣ ∣ ( v T x i ) v − ( v T x ˉ ) v ∣ ∣ 2 2 ( x ˉ : = 0 ) = 1 n − 1 ∑ i = 1 n ∣ ∣ ( v T x i ) v ∣ ∣ 2 2 = 1 n − 1 ∑ i = 1 n ( v T x i ) 2 = 1 n − 1 ( X v ) T X v = 1 n − 1 v T X T X v = v T Σ v \begin{aligned}\hat{\sigma}^2 &=\frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v}-(\mathbf{v}^T\mathbf{\bar{x}})\mathbf{v} \vert \vert ^2_2\quad(\mathbf{\bar{x}} := \mathbf{0})\\ &= \frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v} \vert \vert ^2_2\\ &= \frac{1}{n-1}\sum_{i=1}^{n} (\mathbf{v}^T\mathbf{x}_i)^2\\ &= \frac{1}{n-1}(\mathbf{Xv})^T\mathbf{Xv}\\ &= \frac{1}{n-1}\mathbf{v}^T\mathbf{X}^T\mathbf{Xv}\\ &= \mathbf{v}^T\mathbf{\Sigma}\mathbf{v} \end{aligned} σ^2=n11i=1n∣∣(vTxi)v(vTxˉ)v2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

培之

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值