PCA算法的最小平方误差解释

最新推荐文章于 2023-12-23 00:00:00 发布

chs44444

最新推荐文章于 2023-12-23 00:00:00 发布

阅读量4.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chs44444/article/details/16371121

机器学习专栏收录该内容

0 篇文章

订阅专栏

本文从最小化点到投影后点的距离平方和的角度重新解读PCA算法。通过对m个n维样本点进行投影，寻找最佳的k维子空间，使得投影误差平方和最小。利用拉格朗日乘数法求解得到协方差矩阵的前k个特征向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PCA算法另外一种理解角度是：最小化点到投影后点的距离平方和.
假设我们有m个样本点，且都位于n维空间 $x\in \mathbb{R}^n$ 中，而我们要把原n维空间中的样本点投影到k维子空间中去（k<n），并使得这m个点到投影点的距离的平方和最小.我们进一步假设投影矩阵P已经是标准化过的了（ $P=[u_1,u_2,\cdots,u_k]$ ，其中 $u_i$ 是n维的单位向量，且这组基向量两两正交）

投影矩阵具有如下性质：

$\begin{aligned} &P^n=P(n=1,2,\cdots),\quad P^T=P \\ &(I-P)^n=I-P(n=1,2,\cdots),\quad (I-P)^T=I-P \end{aligned}$

记每一个点 $x^{(i)}$ 对应的投影误差为 $e^{(i)}$ ，且投影误差的表达式为 $e^{(i)}=(I-P)x^{(i)}$ ，那么我们要最小化的表达式为：

$E'=\sum_{i=1}^{m}e^{(i)T}e^{(i)}$

为了后面的推导方便，我将上式除以 $\frac{1}{m}$ 即样本个数），由于其是定值，所以不影响我们问题的求解

$\begin{aligned} E&=\frac{1}{m}\sum_{i=1}^{m}e^{(i)T}e^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}[(I-P)x^{(i)}]^T (I-P)x^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}(I-P)^T (I-P)x^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}(I-P)^2 x^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}(I-P)x^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}-\frac{1}{m}\sum_{i=1}^{m} x^{(i)T}Px^{(i)}\\ \end{aligned}$

由投影矩阵的性质 $P^2=P$ 有：

$E=\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)} -\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}P^2x^{(i)}$

由投影矩阵的对称性 $P^T=P$ 有：

$\begin{aligned} E=&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}- \frac{1}{m}\sum_{i=1}^{m}x^{(i)T}PP^Tx^{(i)}\\ =&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}- \frac{1}{m}\sum_{i=1}^{m}(P^Tx^{(i)})^T(P^Tx^{(i)})\\ =&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)} -\frac{1}{m}\sum_{i=1}^{m}(u_1^Tx^{(i)},u_2^T x^{(i)},\cdots,u_k^Tx^{(i)})(u_1^Tx^{(i)},u_2^T x^{(i)},\cdots,u_k^Tx^{(i)})^T \\ =&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}- \sum_{j=1}^{k}\frac{1}{m}\sum_{i=1}^{m}u_j^T x^{(i)}x^{(i)T}u_j \\ =&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}- \sum_{j=1}^{k}u_j^T\left( \frac{1}{m}\sum _{i=1}^{m}x^{(i)}x^{(i)T} \right)u_j\\ =&\frac{1}{m}\sum_{i=1}^{m}x^{(i)T}x^{(i)}- \sum_{j=1}^{k}u_j^T\Sigma u_j \end{aligned}$

因此， $\min E$ 等价于

$\begin{aligned} &\max_{u_1,u_2,\cdots,u_k}\sum_{j=1}^{k}u_j^T\Sigma u_j\\ &s.t.\quad u_j^Tu_j=1(j=1,2,\cdots,k) \end{aligned}$

求解上面的 $u_j$ 要用到最大方差解释中使用的Lagrangian Multiplier，在此不再赘述，而最后求得的 $u_1,u_2,\cdots,u_k$ 就是协方差矩阵 $\Sigma$ 的前k个特征向量

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。