算法公式推导——PCA

最新推荐文章于 2024-06-18 08:19:36 发布

原创

最新推荐文章于 2024-06-18 08:19:36 发布 · 1.2k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#线性代数 #算法

PCA（主成分分析）是一种线性代数方法，用于寻找数据集的主要方向，最大化投影的方差。首先将数据规范化，然后通过最大化特征值来找到主向量。PCA的关键在于找到数据矩阵XXT的最大特征值对应的特征向量，这可以通过SVD分解实现。通过对数据点减去第一主成分，可以找到第二主成分，依次类推。

文章目录

前言：关于主成分分析（Principle Component Analysis，PCA）的算法公式推导，文中若有写的不对的地方或者没写明白的地方，欢迎读者提出并交流。

1，算法定义

算法输入：一堆点集 $[x_1, x_2, ...,x_m]，其中x_i \in \mathbb{R}^n, ~~i = 1,2,...,m$
算法输出：一堆主向量 $z_1, z_2,...,z_k \in \mathbb{R}^n, ~~k \le n$

问1：什么是最重要的主成分？
答1：一个方向，使得投影到该方向上的所有数据点的方差最大。

问2：如何获取第二重要的主成分？
答2：从原始的数据点中去掉最重要的主成分，即数据点减去投影后，再从中找到最重要的主成分。

问3：如何获取第三重要的主成分？
答3：重复上面的步骤。

2，算法步骤

1，将数据点规范化为0均值，因为我们只关心这堆数据点的方向。
$\widetilde{X} = [\widetilde{x}_1, \widetilde{x}_2, ...,\widetilde{x}_m]，其中\widetilde{x}_i = x_i - \frac{1}{m} \displaystyle\sum_{i=1}^m x_i，i = 1,2,...,m$
2，PCA的目的是找到一个方向 $\in \mathbb{R}^n$ （其中 $z||_2 = 1$ ），使得 $X$ （或者 $\widetilde{X}$ ）中的数据点投影到该方向后的方差最大（无论点云是否进行了去中心化操作，其向 $z$ 轴方向的投影不变）。
- $\widetilde{X}$ 中的点往 $z$ 方向的投影为： $\widetilde{x}_i^T z$
- 投影的均方差为： $\frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^2 = \frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^T (\widetilde{x}_i^T z) =\frac{1}{m} \displaystyle\sum_{i=1}^m z^T \widetilde{x}_i \widetilde{x}_i^T z$
  为了后面书写方便，用符号 $x_i$ 代替去中心后的点 $\widetilde{x}_i$ ，因此投影均方差可写作： $\frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z$
- 将投影均方差写成矩阵的形式有： $\frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z = \frac{1}{m}~z^T XX^T z$

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。