【数据处理方法】主成分分析（PCA）原理分析

PCA主成分分析详解：从原理到实践

最新推荐文章于 2025-09-19 11:18:16 发布

原创

最新推荐文章于 2025-09-19 11:18:16 发布 · 1.5w 阅读

218 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #数据分析

本文深入浅出地介绍了主成分分析（PCA）的基本原理和步骤，通过实例解释了PCA如何通过坐标系转换实现数据降维，强调了去中心化和求协方差矩阵在PCA过程中的关键作用。PCA旨在找到数据方差最大的方向作为主成分，从而保留数据的主要信息。文章最后总结了PCA的流程，并预告了后续将探讨PCA在MATLAB中的实现。

笔者最近在学习的过程需要使用一些数据分析和处理的方法，而PCA就是其中常用的一种手段。但在自学的过程中，由于笔者水平有限，对一些博客中的公式不是能很好理解（数学不好的辛酸Ծ‸Ծ），导致总是对整个方法的原理没有一个透彻的理解。后来在视频用最直观的方式告诉你：什么是主成分分析PCA_哔哩哔哩_bilibili

的帮助下，笔者终于从整体上理解了该方法，在此也向该视频作者致以诚挚的感谢。接下来，笔者尽量用自己的话来总结从该视频中的收获，谈谈对PCA原理的理解。为照顾一些和笔者一样基础不太好的小伙伴，这里尽量使用少的公式，而用一些图示来辅助理解。如无特别标明，本文所用的所有图片均来自上述视频。

事先说明，如果仅是对PCA步骤感兴趣的小伙伴，可以直接跳到总结部分，也方便节约时间。：）

一.PCA简介

主成分分析（Principal components analysis, PCA），顾名思义，其目的在于提取数据中的主要成分信息，因此，常用于对数据的提炼，例如：降维（使用最多的领域之一），异常值检测等，是数据分析中的一种重要方法。

那么，PCA究竟做了什么呢？我们通过下面的图来简单理解一下：

我们首先来看一个特殊情况，假如在原坐标系下，有这样六个点，每个点的坐标包括x和y，这样，当我们要记录这些点的坐标时，我们需要同时记录它们的x坐标和y坐标，也就是要记录2个维度的信息。

那么，假如我们移动坐标系，让新坐标系如右所示，令所有的点都位于一个轴上，同时能较好的保留原先数据分布的信息。这样，由于在y'上坐标全部为0，因此我们完全可以去掉，仅用x'坐标就可以表示这些点。这样，原先需要保存2维的坐标信息，在进行这样的坐标系转换后，就仅需保留1维的坐标信息，我们便完成了对数据的提炼，或者在这里，可以称为对数据的降维。

相信在看了上面一段话后，有的小伙伴已经悟到了，没错，PCA所作的，就是这样一个坐标系转换的事情。