【AI深究】主成分分析（PCA）全网最详细全流程详解与案例（附大量Python代码演示）|数学原理、案例流程、代码演示及结果解读|几何意义与主成分选择、与LDA的对比、实际应用场景、工程建议与优缺点

人工智能AI酱

于 2025-06-21 00:28:14 发布

阅读量1.2k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：【AI深究】专栏系列文章标签：人工智能 python 算法机器学习 ai PCA 主成分分析

本文链接：https://blog.youkuaiyun.com/ai_aijiang/article/details/148799217

【AI深究】专栏系列专栏收录该内容

36 篇文章

订阅专栏

大家好，我是爱酱。本篇将系统讲解主成分分析（PCA, Principal Component Analysis）的原理、数学推导、案例流程、代码实现和工程建议。内容适合初学者和进阶读者，分步解释，配合公式和具体例子。

注：本文章含大量数学算式、详细例子说明及大量代码演示，大量干货，建议先收藏再慢慢观看理解。新频道发展不易，你们的每个赞、收藏跟转发都是我继续分享的动力！

开始前，爱酱之前也介绍过另外一种分析方法——线性判别分析（LDA）。有兴趣的伙伴可以在看完PCA之后去去看看喔～
传送门：【AI深究】线性判别分析（LDA）全网最详细全流程详解与案例（附大量Python代码演示）|数学原理、案例流程、代码演示及结果解读|LDA与PCA的区别、实际业务中应用、正则化与扩展、多类别决策边界-优快云博客

学习PCA的过程中会用到特征向量（Eigenvector）与特征值（Eigenvalue）的概念。如果看不懂，爱酱也有仔细介绍这两概念的文章哦～
传送门：
【AI概念】特征向量（Eigenvector）与特征值（Eigenvalue）是什麽？他们有什么区别？各自在机器学习中担任什么样的角色？| 求解方法、具体例子、几何动画与代码直观演示、实际工程应用场合-优快云博客

我们正式开始吧！

一、PCA算法简介

主成分分析（PCA）是一种经典的无监督降维方法，广泛应用于数据压缩、特征提取、可视化等领域。PCA的核心思想是：找到数据方差最大的方向，将高维数据投影到这些主方向上，从而达到降维和去冗余的目的。

二、PCA的数学原理

1. 目标与思想

PCA希望在保留数据主要信息的前提下，把原始高维数据投影到低维空间。其目标是：

最大化投影后数据的方差（信息量最大）
不同主成分之间相互正交（无关）

2. 协方差矩阵

假设有 $n$ 个样本，每个样本 $d$ 维，记为 $X \in \mathbb{R}^{n \times d}$ ，先对每个特征做中心化（减去均值），然后计算协方差矩阵：

3. 特征值分解

PCA的核心是对协方差矩阵 $S$ 做特征值分解：

其中 $v_i$ 为特征向量（主成分方向）， $\lambda_i$ 为特征值（该方向上的方差大小）。

4. 主成分选择与降维

取最大的 $k$ 个特征值对应的特征向量 $v_1, v_2, ..., v_k$ ，组成投影矩阵 $W$ 。
将原始数据 $X$ 投影到 $W$ 上，得到降维后的数据 $Z$ ：

三、PCA案例流程

Step 1：准备数据

收集原始高维数据，常见于图像、文本、传感器等领域。
对每个特征做中心化（减去均值）。

Step 2：计算协方差矩阵

用中心化后的数据计算协方差矩阵 $S$ 。

Step 3：特征值分解

对 $S$ 做特征值分解，得到特征值和特征向量。

Step 4：选择主成分

选取最大的 $k$ 个特征值对应的特征向量，作为主成分方向。

Step 5：数据投影与降维

用主成分方向将原始数据投影到低维空间，得到降维结果。

四、PCA代码演示（二维可视化案例）

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 1. 加载Iris数据集（4维特征）
data = load_iris()
X = data.data
y = data.target

# 2. 用PCA降到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 3. 可视化降维结果
plt.figure(figsize=(8,6))
for label, color in zip(np.unique(y), ['red', 'green', 'blue']):
    plt.scatter(X_pca[y==label, 0], X_pca[y==label, 1], label=data.target_names[label], color=color)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA of Iris Dataset')
plt.legend()
plt.show()

# 4. 查看主成分方差贡献率
print("Explained variance ratio:", pca.explained_variance_ratio_)

五、代码流程与结果解读

用Iris数据集（4维）演示PCA降维到2维，便于可视化。
降维后不同类别的花在主成分空间中分布较开，便于后续分类或聚类。
explained_variance_ratio_显示每个主成分方向解释的方差信息量，反映降维后信息保留程度。

六、PCA的几何意义与主成分选择

1. 几何意义

PCA实质上是在高维空间中，选择一组新的正交坐标轴（主成分方向），这些轴按照数据方差从大到小排序。
第一个主成分方向（PC1）是数据方差最大的方向，第二个主成分方向（PC2）与PC1正交，且方差次大，以此类推。
数据在主成分方向上的投影，保留了原始数据中最“有用”的信息（即最大方差）。

2. 主成分选择标准

常用累计方差贡献率（cumulative variance contribution rate）来决定保留多少主成分。比如累计贡献率达到95%时，说明降维后数据保留了95%的信息。
数学表达：

其中 $\lambda_i$ 为第 $i$ 个特征值， $k$ 为主成分数， $d$ 为原始特征数。

七、PCA与LDA的对比

方法	类型	是否有监督	目标	投影方向依据	适用场景
PCA	无监督	否	最大化投影后方差	整体数据方差	数据压缩、可视化
LDA	有监督	是	最大化类间距离/最小化类内距离	类别分离	分类、降维