主成分分析（PCA）最经典的线性降维方法

原创于 2025-09-01 11:36:25 发布 · 1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

AI 同时被 2 个专栏收录

19 篇文章

订阅专栏

人工智能训练师

11 篇文章

订阅专栏

主成分分析（PCA）是最经典的线性降维方法，核心思想是通过正交变换将高维特征映射到低维空间，用少数几个“主成分”保留原始数据的大部分信息。以下从原理、步骤、应用和局限展开详解：

一、核心原理：最大化方差保留信息

PCA的本质是寻找数据中方差最大的方向（主成分），这些方向能最大程度保留原始数据的变异信息。具体来说：

第一主成分：数据投影后方差最大的方向（包含信息最多）；
第二主成分：与第一主成分正交（垂直）且方差次大的方向；
以此类推，第k主成分与前k-1个主成分均正交，且是剩余方向中方差最大的。

通过保留前k个主成分，可在维度降低的同时，尽可能减少信息损失。

二、数学步骤：从高维到低维的映射

PCA的计算过程可概括为以下5步：

数据标准化
对原始特征做均值归零处理（( x’ = x - \mu )），避免量纲差异影响方差计算（如“身高（厘米）”和“体重（千克）”的数值范围不同）。
计算协方差矩阵
协方差矩阵描述特征间的相关性（对角线为各特征方差，非对角线为特征间协方差），公式：
[ \text{Cov} = \frac{1}{n-1} X^T X ]
（( X ) 为标准化后的数据集，( n ) 为样本数）
求解协方差矩阵的特征值和特征向量
- 特征值：表示对应特征向量方向上的方差大小（值越大，该方向包含的信息越多）；
- 特征向量：表示主成分的方向（正交向量）。
选择前k个主成分
按特征值从大到小排序，选取前k个特征向量（累计方差贡献率通常需≥80%~95%），构成投影矩阵 ( W )。
累计方差贡献率公式：
[ \text{贡献率} = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^d \lambda_i} ]
（( d ) 为原始特征维度，( \lambda_i ) 为第i个特征值）
将数据映射到低维空间
用投影矩阵 ( W ) 对原始数据 ( X ) 进行线性变换，得到降维后的低维数据 ( Z )：
[ Z = X \times W ]

三、关键特性：正交性与信息压缩

正交性：主成分之间相互独立（协方差为0），消除了原始特征的多重共线性；
无监督性：仅依赖数据本身的分布，不使用目标变量信息；
信息损失可控：通过调整k值（主成分数量），可在“降维幅度”和“信息保留度”间平衡。

四、适用场景与典型应用

高维数据降维
- 图像：将像素点（如100×100=10000维）降维到几十维，保留主要视觉特征；
- 文本：将词袋模型（高维稀疏向量）降维，简化后续分类或聚类；
- 基因数据：将上万个基因表达量降维，挖掘核心生物特征。
数据可视化
将高维数据（如100维）降维到2D或3D，直观展示样本分布（如聚类效果、类别边界）。
预处理去噪
低方差的主成分可能对应噪声，剔除后可提升模型鲁棒性。

五、局限性与注意事项

仅适用于线性关系：无法捕捉特征间的非线性关联（需用t-SNE、核PCA等非线性方法）；
可解释性差：主成分是原始特征的线性组合（如“PC1=0.3×身高+0.7×体重”），无明确业务含义；
对异常值敏感：异常值会拉高方差，导致主成分方向偏移，建议先处理异常值；
需标准化：未标准化的数据会被数值范围大的特征主导（如“收入（万元）”比“年龄（岁）”影响更大）。

六、工具实现（Python示例）

用sklearn的PCA类可快速实现降维：

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np

# 示例：100个样本，5个特征的高维数据
X = np.random.randn(100, 5)  # 随机生成符合正态分布的数据

# 1. 标准化（关键步骤）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. 初始化PCA，保留累计方差贡献率≥95%的主成分
pca = PCA(n_components=0.95)  # 或指定具体数量n_components=2
X_pca = pca.fit_transform(X_scaled)

# 输出结果
print(f"原始维度：{X.shape[1]}")
print(f"降维后维度：{X_pca.shape[1]}")
print(f"各主成分方差贡献率：{pca.explained_variance_ratio_}")
print(f"累计方差贡献率：{sum(pca.explained_variance_ratio_)}")