机器学习：PCA降维

最新推荐文章于 2025-06-28 20:22:28 发布

原创最新推荐文章于 2025-06-28 20:22:28 发布 · 946 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

一、引言：为什么需要降维

在机器学习领域，我们经常会遇到高维数据（如图像数据，ORL人脸数据集每张图像有112×92=10304个维度）。高维数据不仅导致计算复杂度增加，还会引发"维度灾难"（Curse of Dimensionality）。这时候，降维技术就成为了我们的救命稻草。

本文将介绍最经典的降维算法——主成分分析（PCA），并通过ORL人脸数据集实战演示其应用效果。

二、PCA原理详解

2.1 PCA的数学本质

PCA的核心思想是通过线性变换将原始高维数据投影到低维空间，同时保留最重要的特征。其数学过程可以分为以下几步：

数据中心化：减去均值使数据分布以原点为中心
计算协方差矩阵：
特征值分解：

其中Λ是对角矩阵（特征值），W是特征向量矩阵
选择主成分：按特征值从大到小排序，保留前k个特征向量

2.2 PCA的直观理解

可以把PCA看作是在寻找数据分布的最主要"方向"：

第一主成分：数据方差最大的方向
第二主成分：与第一主成分正交且方差次大的方向
以此类推...

三、PCA的优缺点分析

优点：

降低计算复杂度：减少特征维度，提高算法效率
去除噪声：低维表示往往更鲁棒
可视化方便：可将高维数据降至2D/3D便于观察

局限性：

线性假设：只能捕捉线性关系
方差≠重要性：高方差方向不一定是最具判别性的方向
解释性下降：主成分的物理意义可能不明确

四、PCA在实际项目中的应用建议

预处理步骤：在分类/聚类前先进行PCA降维
参数选择：通过解释方差曲线确定合适的主成分数量
结合其他方法：
- 先用PCA降维，再用t-SNE可视化
- Kernel PCA处理非线性数据

五、代码实现

5.1 数据集介绍

ORL数据集包含40个人的400张人脸图像（每人10张）。我们将使用PCA对这些图像进行降维处理。

5.2 详细代码

库导入与初始化设置

# 基础库导入
import os
import numpy as np
from PIL import Image
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows系统黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

数据加载模块

def 加载ORL人脸数据(根目录路径, 组数=40, 每组样本数=10):
    """加载ORL人脸数据集"""
    图像列表 = []
    标签列表 = []
    
    for 组编号 in range(1, 组数+1):
        组目录 = os.path.join(根目录路径, f"s{组编号}")
        for 样本编号 in range(1, 每组样本数+1):
            图像路径 = os.path.join(组目录, f"{样本编号}.pgm")
            try:
                # 打开PGM图像并转换为numpy数组
                图像 = Image.open(图像路径)
                图像数组 = np.array(图像).flatten()
                图像列表.append(图像数组)
                标签列表.append(组编号)
            except FileNotFoundError:
                print(f"警告: 缺少文件 {图像路径}")
    
    return np.array(图像列表), np.array(标签列表)

PCA核心处理模块

def 执行PCA降维(数据, 主成分数量=50):
    """执行PCA降维处理"""
    # 数据标准化
    标准化器 = StandardScaler()
    标准化数据 = 标准化器.fit_transform(数据)
    
    # 创建PCA模型并拟合数据
    pca模型 = PCA(n_components=主成分数量)
    pca结果 = pca模型.fit_transform(标准化数据)
    
    return pca结果, pca模型

可视化模块

def 可视化降维结果(pca结果, 标签, 组数=40):
    """可视化PCA降维结果（前两个主成分）"""
    plt.figure(figsize=(15, 10))
    # 为每组分配不同颜色
    颜色 = plt.cm.rainbow(np.linspace(0, 1, 组数))
    
    for 组编号 in range(组数):
        # 筛选当前组的数据
        组掩码 = (标签 == 组编号+1)
        plt.scatter(pca结果[组掩码, 0], 
                   pca结果[组掩码, 1], 
                   color=颜色[组编号], 
                   label=f'第{组编号+1}组',
                   alpha=0.7)
    
    plt.title('ORL人脸数据集PCA降维可视化（前两个主成分）')
    plt.xlabel('第一主成分')
    plt.ylabel('第二主成分')
    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.show()

def 绘制特征脸(pca模型, 图像尺寸=(112, 92), 显示数量=16):
    """绘制PCA计算得到的特征脸"""
    plt.figure(figsize=(10, 10))
    for i in range(显示数量):
        plt.subplot(4, 4, i+1)
        plt.imshow(pca模型.components_[i].reshape(图像尺寸), cmap='gray')
        plt.title(f'特征脸 {i+1}')
        plt.axis('off')
    plt.tight_layout()
    plt.show()

def 显示重建对比(原始数据, pca模型, 样本索引=0, 图像尺寸=(112, 92)):
    """显示原始图像与重建图像的对比"""
    # 重建选定样本
    重建图像 = pca模型.inverse_transform(pca模型.transform(原始数据[样本索引].reshape(1, -1)))
    
    plt.figure(figsize=(8, 4))
    plt.subplot(1, 2, 1)
    plt.imshow(原始数据[样本索引].reshape(图像尺寸), cmap='gray')
    plt.title('原始图像')
    plt.axis('off')
    
    plt.subplot(1, 2, 2)
    plt.imshow(重建图像.reshape(图像尺寸), cmap='gray')
    plt.title(f'重建图像 (主成分数={pca模型.n_components})')
    plt.axis('off')
    
    plt.tight_layout()
    plt.show()

def 绘制解释方差(pca模型):
    """绘制累计解释方差曲线"""
    plt.figure(figsize=(10, 6))
    plt.plot(np.cumsum(pca模型.explained_variance_ratio_))
    plt.xlabel('主成分数量')
    plt.ylabel('累计解释方差比例')
    plt.title('PCA主成分解释方差分析')
    plt.grid()
    plt.show()

主程序流程

if __name__ == "__main__":
    # 设置数据集路径（根据实际路径修改）
    数据集路径 = r"D:\python\aaajqxx\ORL_Faces"
    
    print("正在加载ORL人脸数据集...")
    # 加载数据
    人脸图像, 组别标签 = 加载ORL人脸数据(数据集路径)
    print(f"成功加载 {人脸图像.shape[0]} 张图像，每张图像维度 {人脸图像.shape[1]}")
    
    # 执行PCA降维
    print("\n正在执行PCA降维处理...")
    主成分数量 = 100  # 设置保留的主成分数量
    pca结果, pca模型 = 执行PCA降维(人脸图像, 主成分数量)
    print(f"降维完成，原始维度 {人脸图像.shape[1]} → 降维后 {pca结果.shape[1]}")
    
    # 可视化分析结果
    print("\n正在生成可视化结果...")
    可视化降维结果(pca结果, 组别标签)
    
    # 显示解释方差
    绘制解释方差(pca模型)
    
    # 显示特征脸
    print("\n正在计算特征脸...")
    绘制特征脸(pca模型)
    
    # 显示重建对比
    print("\n正在生成重建对比图...")
    显示重建对比(人脸图像, pca模型, 样本索引=5)
    
    # 保存结果
    print("\n正在保存分析结果...")
    np.savez("orl人脸_pca结果.npz", 
             pca结果=pca结果, 
             标签=组别标签, 
             主成分=pca模型.components_,
             均值=pca模型.mean_)
    
    print("\nPCA分析完成！结果已保存到 orl人脸_pca结果.npz")