算法公式推导——PCA

PCA(主成分分析)是一种线性代数方法,用于寻找数据集的主要方向,最大化投影的方差。首先将数据规范化,然后通过最大化特征值来找到主向量。PCA的关键在于找到数据矩阵XXT的最大特征值对应的特征向量,这可以通过SVD分解实现。通过对数据点减去第一主成分,可以找到第二主成分,依次类推。


前言:关于主成分分析(Principle Component Analysis,PCA)的算法公式推导,文中若有写的不对的地方或者没写明白的地方,欢迎读者提出并交流。

1,算法定义

算法输入:一堆点集 X = [ x 1 , x 2 , . . . , x m ] , 其 中 x i ∈ R n ,    i = 1 , 2 , . . . , m X = [x_1, x_2, ...,x_m],其中x_i \in \mathbb{R}^n, ~~i = 1,2,...,m X=[x1,x2,...,xm]xiRn,  i=1,2,...,m
算法输出: 一堆主向量 z 1 , z 2 , . . . , z k ∈ R n ,    k ≤ n z_1, z_2,...,z_k \in \mathbb{R}^n, ~~k \le n z1,z2,...,zkRn,  kn

问1:什么是最重要的主成分?
答1:一个方向,使得投影到该方向上的所有数据点的方差最大。

问2:如何获取第二重要的主成分?
答2:从原始的数据点中去掉最重要的主成分,即数据点减去投影后,再从中找到最重要的主成分。

问3:如何获取第三重要的主成分?
答3:重复上面的步骤。

2,算法步骤

  • 1,将数据点规范化为0均值,因为我们只关心这堆数据点的方向。
    X ~ = [ x ~ 1 , x ~ 2 , . . . , x ~ m ] , 其 中 x ~ i = x i − 1 m ∑ i = 1 m x i , i = 1 , 2 , . . . , m \widetilde{X} = [\widetilde{x}_1, \widetilde{x}_2, ...,\widetilde{x}_m], 其中\widetilde{x}_i = x_i - \frac{1}{m} \displaystyle\sum_{i=1}^m x_i,i = 1,2,...,m X =[x 1,x 2,...,x m]x i=xim1i=1mxii=1,2,...,m

  • 2,PCA的目的是找到一个方向 z ∈ R n z \in \mathbb{R}^n zRn(其中 ∣ ∣ z ∣ ∣ 2 = 1 ||z||_2 = 1 z2=1),使得 X X X (或者 X ~ \widetilde{X} X )中的数据点投影到该方向后的方差最大(无论点云是否进行了去中心化操作,其向 z z z 轴方向的投影不变)。

    • X ~ \widetilde{X} X 中的点往 z z z方向的投影为: x ~ i T z \widetilde{x}_i^T z x iTz
    • 投影的均方差为: 1 m ∑ i = 1 m ( x ~ i T z ) 2 = 1 m ∑ i = 1 m ( x ~ i T z ) T ( x ~ i T z ) = 1 m ∑ i = 1 m z T x ~ i x ~ i T z \frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^2 = \frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^T (\widetilde{x}_i^T z) =\frac{1}{m} \displaystyle\sum_{i=1}^m z^T \widetilde{x}_i \widetilde{x}_i^T z m1i=1m(x iTz)2=m1i=1m(x iTz)T(x iTz)=m1i=1mzTx ix iTz
      为了后面书写方便,用符号 x i x_i xi代替去中心后的点 x ~ i \widetilde{x}_i x i,因此投影均方差可写作: 1 m ∑ i = 1 m z T x i x i T z \frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z m1i=1mzTxixiTz
    • 将投影均方差写成矩阵的形式有: 1 m ∑ i = 1 m z T x i x i T z = 1 m   z T X X T z \frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z = \frac{1}{m}~z^T XX^T z m1i=1mzTxix
### 主成分分析 (PCA) 的数学公式及其推导 主成分分析(Principal Component Analysis, PCA)是一种常用的降维技术,其核心目标是通过线性变换将高维数据映射到低维空间,同时保留尽可能多的信息。以下是 PCA 算法的核心数学公式以及详细的推导过程。 #### 1. 数据标准化 在应用 PCA 之前,通常需要对原始数据 $ X $ 进行中心化处理,即减去每列的均值[^3]。假设原始数据矩阵为 $ X \in \mathbb{R}^{n \times m} $,其中 $ n $ 是样本数量,$ m $ 是特征数量,则经过中心化的数据记作: $$ \tilde{X} = X - \mu, $$ 其中 $\mu$ 表示每一列的平均值向量[^3]。 --- #### 2. 协方差矩阵计算 协方差矩阵用于衡量变量之间的关系强度。对于中心化后的数据矩阵 $\tilde{X}$,协方差矩阵定义为: $$ \Sigma = \frac{1}{n-1} \tilde{X}^\top \tilde{X}, $$ 这里 $\Sigma \in \mathbb{R}^{m \times m}$ 是一个对称半正定矩阵[^4]。 --- #### 3. 特征分解 为了找到能够最大程度保持数据信息的新坐标系,我们需要求解协方差矩阵的特征值和对应的特征向量。具体来说,解决以下广义特征值问题: $$ \Sigma v_i = \lambda_i v_i, $$ 其中 $v_i$ 和 $\lambda_i$ 分别表示第 $i$ 个特征向量和特征值[^2]。按照特征值大小排序后,选取前 $k$ 个最大的特征值所对应的方向作为新基底。 --- #### 4. 投影与降维 选定新的基向量集合构成矩阵 $ V_k \in \mathbb{R}^{m \times k} $ 后,可以利用该矩阵实现从原空间到子空间的数据投影。最终得到的降维结果为: $$ Y = \tilde{X} V_k. $$ 此处 $ Y \in \mathbb{R}^{n \times k} $ 就是我们所需的低维表达形式[^3]。 --- #### 5. 方差最大化原则下的优化目标函数 实际上,在寻找最优方向过程中隐含着这样一个约束最优化模型: 给定任意单位长度矢量 w ,尝试使得下面的目标达到极大值 : $$ J(w)=w^TΣw,\quad s.t.\ \|w\|=1 . $$ 采用拉格朗日乘数法则构建辅助函数 L 并完成极值条件解析即可得出结论——最佳解正是 Σ 的某个标准正交本征矢之一 。因此反复迭代直至获得全部所需维度为止 [^4]. ```python import numpy as np def pca(X, num_components): # Step 1: Center the data mean_vector = np.mean(X, axis=0) centered_X = X - mean_vector # Step 2: Compute covariance matrix cov_matrix = np.cov(centered_X.T) # Step 3: Perform eigen decomposition on the covariance matrix eig_values, eig_vectors = np.linalg.eig(cov_matrix) # Step 4: Sort eigenvalues and select top-k components sorted_indices = np.argsort(eig_values)[::-1] selected_eigenvectors = eig_vectors[:, sorted_indices[:num_components]] # Step 5: Project original data onto new subspace projected_data = np.dot(centered_X, selected_eigenvectors) return projected_data, selected_eigenvectors ```
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值