【第二章:机器学习与神经网络概述】02.降维算法理论与实践-(1)主成分分析（Principal Component Analysis, PCA）

IT古董

已于 2025-06-19 13:44:18 修改

阅读量258

点赞数 3

CC 4.0 BY-SA版权

分类专栏：人工智能课程文章标签：机器学习神经网络算法

于 2025-06-19 13:43:55 首次发布

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/148764557

人工智能课程专栏收录该内容

20 篇文章

订阅专栏

第二章: 机器学习与神经网络概述

第二部分：降维算法理论与实践

第一节：主成分分析（Principal Component Analysis, PCA）

内容：协方差矩阵、特征值分解、数据降维。

PCA 是一种经典的线性降维方法，通过找到数据中最重要的方向（主成分），在最大限度保留原始数据信息的前提下，降低维度、去除冗余，常用于数据压缩、可视化、去噪等任务。

一、核心思想

PCA 旨在找到一组新的正交基（主成分），使得原始数据在这些基下的投影具有最大的方差（也即信息量最大）。

二、步骤详解

数据标准化（去中心化）

确保每个特征维度均值为 0：

$X' = X - \mu$

其中 μ 是每列（特征）的平均值。

计算协方差矩阵

$\Sigma = \frac{1}{n-1} X'^T X'$

该矩阵反映了各特征之间的线性相关性。

求协方差矩阵的特征值与特征向量

$\Sigma v = \lambda v$

特征向量（v）是新的坐标轴方向；
特征值（λ）表示沿该方向的数据方差大小。

选择前 k 个最大特征值对应的特征向量

构成变换矩阵 $W_k$ ，用于投影降维。

变换数据

$Z = X' \cdot W_k$

得到降维后的数据。

上图展示了 Iris 数据集标准化后特征的协方差矩阵 热力图：

对角线表示各特征自身的方差（均为 1，因为已标准化）；
非对角线反映特征之间的线性相关性：
- 正值表示正相关，例如“花瓣长度”和“花瓣宽度”；
- 负值或接近 0 表示负相关或无明显线性关系；
可据此判断哪些维度信息冗余，有助于降维（如 PCA）时选择保留主成分。

上图展示了 Iris 数据集使用 PCA 降维到二维后的投影结果：

不同颜色表示不同类别的花（setosa、versicolor、virginica）；
PCA 将原始四维特征（花萼/花瓣长度与宽度）压缩到两个主成分（PC1 与 PC2）；
我们可以清晰地看到：第一主成分很好地区分了类别，说明其携带了大量判别性信息。

三、可视化理解

每个主成分是一个最大化投影方差的方向；
第一个主成分最大化全局方差；
第二个主成分与第一个正交，最大化剩余方差。

四、示例代码（基于 `scikit-learn`）

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# 加载数据
data = load_iris()
X = data.data
y = data.target

# PCA降维到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 可视化
plt.figure(figsize=(6, 5))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', edgecolor='k')
plt.title("Iris Dataset PCA (2D)")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.grid(True)
plt.show()