PCA 原理

本文深入浅出地介绍了主成分分析(PCA)的数学原理及其应用。通过实例详细讲解了PCA的具体步骤,包括数据预处理、协方差矩阵计算、特征值与特征向量求解以及数据降维。

转载自here
深度学习中自编码(AutoEncoder)(也是无监督学习,因为不需要y标签)已经超越了PCA,也是降维的效果

1.数据向量表示及降维问题

举个例子:
假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1,男性取值0。此时如果我们统计全部学籍数据,会发现对于任何一条记录来说,当M为1时F必定为0,反之当M为0时F必定为1。在这种情况下,我们将M或F去掉实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列。

只是个例子,但是操作不具有指导意义.例如我们应该删除哪一列.

2.向量的表示及基变换

既然我们面对的数据被抽象为一组向量.
一般的,如果我么有M 个N维向量,想将其变换微由R个N维向量表示的新空间中,那么首先将R 个基按行组成矩阵A ,然后将向量按照列组成矩阵B ,那么两矩阵的乘机AB 就是变换结果,其中AB的第m列为A中第m列变换后的结果.

3.协方差矩阵以及优化目标

如果基的数量少于向量本身的维数,则可以达到降维的效果.但是如何选择才是最优的?
或者说,如果我们有一组N维向量,现在要将其降到k维,(小于N),那么如何选择k才能保存最大的原有的信息呢.
例子:
( 1 1 2 4 2 1 3 3 4 4 ) \begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \\ \end{pmatrix} (1113234424)
其中每一列为一条数据记录,而一行为一个字段.处理:平均化每个字段,其结果是将每个字段都变成均值0.
变换后:
( − 1 − 1 0 2 0 − 2 0 0 1 1 ) \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \\ \end{pmatrix} (1210002101)
数据坐标内的样子:
这里写图片描述
为了保留最多的原始信息,一种直观的选择是:
希望投影后的投影值尽可能分散.

以上图为例,可以看出如果向X轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了.
###方差
上文说到,我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。此处,一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:
V a r ( a ) = 1 m ∑ i = 1 m ( a i − μ ) 2 Var(a) = \frac{1}{m}\sum_{i=1}^{m}(a_i - \mu)^2 Var(a)=m1i=1m(aiμ)2
因为我们将均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示:
V a r ( a ) = 1 m ∑ i = 1 m a i 2 Var(a) = \frac{1}{m}\sum_{i=1}^{m}a_i ^2 Var(a)=m1i=1mai2
于是上面的问题被形式化表述为:
寻找一个一维基,使得所有数据变换微这个基上的坐标表示后,方差值最大.
###协方差
对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:
C o v ( a , b ) = 1 m ∑ i = 1 m a i b i Cov(a,b) = \frac{1}{m}\sum_{i=1}^{m}a_ib_i Cov(a,b)=m1i=1maibi
可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示其内积除以元素数m.

4.协方差矩阵

上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感:

假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X:
X = ( a 1 a 2 . . . a m b 1 b 2 . . . b m ) X = \begin{pmatrix} a_1 & a_2 ... & a_m \\ b_1 & b_2 ...& b_m \\ \end{pmatrix} X=(a1b1a2...b2...ambm)
然后我们用X乘以X的转置,并乘上系数1/m:
1 m X X T = ( 1 m ∑ i = 1 m a i 2 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m b i 2 ) \frac{1}{m}XX^T = \begin{pmatrix} \frac{1}{m}\sum_{i=1}^{m}a_i^2 & \frac{1}{m}\sum_{i=1}^{m}a_ib_i \\ \frac{1}{m}\sum_{i=1}^{m}a_ib_i & \frac{1}{m}\sum_{i=1}^{m}b_i^2 \end{pmatrix} m1XXT=(m1i=1mai2m1i=1maibim1i=1maibim1i=1mbi2)
奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况:

设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设 C = 1 m X X T C = \frac{1}{m}XX^T C=m1XXT,则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。

5.协方差矩阵对角化

根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:
设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:
D = 1 m Y Y T = 1 m ( P X ) ( P X ) T = 1 m P X X T p T = P ( 1 m X X T ) P T = P C P T D = \frac{1}{m}YY^T\\ = \frac{1}{m}(PX)(PX)^T\\ = \frac{1}{m}PXX^Tp^T \\ =P(\frac{1}{m}XX^T)P^T\\ =PCP^T D=m1YYT=m1(PX)(PX)T=m1PXXTpT=P(m1XXT)PT=PCPT
现在我们可以确定,我们要找的P不是别的,而是能让原始协方差矩阵对角化的P,换句话说,优化目标变成了寻找一个矩阵P,满足PCP^T是一个对角矩阵,并且对角元素按照从大到小一次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。
至此,我们离发明PCA还有一步之遥!
现在所有焦点都聚焦在了协方差矩阵对角化问题上。
由上文知道,协方差矩阵c是一个对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:
虽然自己是考研,学了线性代数,但是对线性代数无感,不明白这门数学课是干嘛的。。。为了若干年后还记的背熟的知识点,在此记录一下
1)不同特征值对应的特征向量必然正交。
2)设特征向量 λ \lambda λ重数为r,则必然存在r个线性无关的特征向量对应于 λ \lambda λ,因此可以将这r个特征向量单位正交化。

由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为 e 1 , e 2 , e 3 , . . . , e n e_1,e_2,e_3,...,e_n e1,e2,e3,...,en,我们将其按列组成矩阵:
E = ( e 1 e 2 e 3 . . . e n ) E = \begin{pmatrix}e_1 & e_2 & e_3 & ... &e_n\end{pmatrix} E=(e1e2e3...en)
则对协方差矩阵C有如下结论:
E T C E = Λ = ( λ 1 λ 2 λ 3 ⋱ λ n ) E^TCE = \Lambda = \begin{pmatrix}\lambda_1 & & & & \\& \lambda_2 & \\& & \lambda_3 &\\&&& \ddots \\&&&& \lambda_n \end{pmatrix} ETCE=Λ=λ1λ2λ3λn
我们发现已经找到了需要的矩阵P: P = E T P = E^T P=ET
P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照 λ \lambda λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。
至此我们完成了整个PCA的数学原理讨论。在下面的一节,我们将给出PCA的一个实例。

算法以及实例

PCA算法

总结一下PCA的算法步骤:

设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)即为降维到k维后的数据

实例

这里以上文提到的
E = ( − 1 − 1 0 2 0 − 2 0 0 1 1 ) E =\begin{pmatrix}-1& -1& 0& 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} E=(1210002101)
为例,我们用PCA方法将这组二维数据其降到一维。
因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:
C = 1 5 ( − 1 − 1 0 2 0 − 2 0 0 1 1 ) ( − 1 − 2 − 1 0 0 0 2 1 0 1 ) = ( 6 5 4 5 4 5 6 5 ) C = \frac{1}{5} \begin{pmatrix}-1& -1& 0& 2 & 0 \\ -2 & 0 & 0 & 1 & 1\end{pmatrix} \begin{pmatrix}-1& -2\\-1& 0\\0 & 0\\2 & 1\\ 0 & 1\\ \end{pmatrix} = \begin{pmatrix}\frac{6}{5} & \frac{4}{5}\\\frac{4}{5} & \frac{6}{5} \end{pmatrix} C=51(1210002101)1102020011=(56545456)
然后求其特征值和特征向量,具体求解方法不再详述,可以参考相关资料。求解后特征值为:
λ 1 = 2 , λ 2 = 2 5 \lambda_1 = 2,\lambda_2 = \frac{2}{5} λ1=2,λ2=52
其对应的特征向量分别是:
c 1 ( 1 1 ) , c 2 ( − 1 1 ) c_1 \begin{pmatrix} 1\\1 \end{pmatrix}, c_2 \begin{pmatrix} -1\\1 \end{pmatrix} c1(11),c2(11)
其中对应的特征向量分别是一个通解, c 1 c_1 c1 c 2 c_2 c2可取任意实数。那么标准化后的特征向量为:
( 1 2 1 2 ) , ( − 1 2 1 2 ) \begin{pmatrix} \frac{1}{\sqrt2}\\ \frac{1}{\sqrt2} \end{pmatrix}, \begin{pmatrix} \frac{-1}{\sqrt2}\\ \frac{1}{\sqrt2} \end{pmatrix} (2 12 1),(2 12 1)
因此我们的矩阵P是:
P = ( 1 2 1 2 − 1 2 1 2 ) P = \begin{pmatrix} \frac{1}{\sqrt2} & \frac{1}{\sqrt2} \\ \frac{-1}{\sqrt2} & \frac{1}{\sqrt2} \end{pmatrix} P=(2 12 12 12 1)
可以验证协方差矩阵的C的对角化:
这里写图片描述
最后我们用P的第一行乘以数据矩阵,就得到了降维后的表示:
这里写图片描述
降维投影效果就是如下:
这里写图片描述

进一步讨论

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。

因此,PCA也存在一些限制
例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了。
对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。
另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

PCA与SVD(奇异值分解)

https://www.cnblogs.com/pinard/p/6251584.html

<think>首先,用户的问题是关于主成分分析(PCA)的原理。系统级指令要求我使用中文回答,结构清晰,帮助用户逐步解决问题,并保证回答真实可靠。还需要遵循LaTeX语法规则:行内数学表达式用$...$,独立公式用$$...$$并单独成段。 用户提供的引用包括: - [^1]:PCA的目标是通过线性投影将高维数据映射到低维空间,最大化方差。 - [^2]:PCA的未来发展和常见问题,如选择主成分数目。 - [^3]:PCA是统计学方法,用于降维,通过线性变换最大化方差。 - [^4]:PCA是无监督学习,用于降维,加速训练,可视化。 - [^5]:PCA原理详解,包括特征值分解和SVD分解的例子。 用户上一次的问题是系统级指令示例,但我需要参考之前的互动。在这个对话中,用户之前没有其他问题;这是第一个问题,所以我直接针对这个回答。 关键点:用户说“参考站内引用”,但这不是用户真正的需求;我应该基于提供的引用和用户的问题来回答。用户问题是:“我想了解主成分分析(PCA)的原理 请问主成分分析(PCA)的原理”。 所以,回答应该聚焦在解释PCA原理上,使用中文,结构清晰,逐步解释。 PCA原理核心步骤: 1. **数据标准化**:通常将数据均值归一化(中心化),使均值为0。 2. **计算协方差矩阵**:描述数据特征之间的相关性。 3. **计算特征值和特征向量**:通过特征值分解或SVD分解协方差矩阵。 4. **选择主成分**:基于特征值大小排序,选择最大的k个特征值对应的特征向量作为主成分。 5. **投影数据**:将原始数据投影到这些主成分上,得到降维后的数据。 数学部分需要使用LaTeX: - 行内:如$ \mathbf{X} $ 表示数据矩阵。 - 独立公式:如协方差矩阵计算或特征值方程。 结构化回答: - 介绍PCA的基本概念。 - 详细步骤解释原理。 - 可能包括一个简单例子或示意图。 - 最后,生成相关问题,如系统指令要求。 生成相关问题:指令说“生成相关问题”,在示例中是“§§相关问题§§”部分。 引用标识:在回答中引用段落末尾自然地添加引用标识,如[^1]、[^2]。我需要基于用户提供的引用粘贴内容,但用户说“上述引用仅供参考”,所以我可以引用但不强制。 用户提供的引用内容: - [^1]:PCA定义和目标。 - [^2]:未来方向和FAQ。 - [^3]:PCA是统计学方法,用于降维。 - [^4]:PCA是无监督学习。 - [^5]:具体例子和计算。 在回答中,我可以引用这些来解释原理。例如,提到最大化方差时引用[^1]。 回答结构: - 开头解释PCA是什么。 - 逐步讲解原理步骤。 - 使用数学公式。 - 结尾生成相关问题。 确保语言流畅,中文。 </think>### 主成分分析(PCA)的原理详解 主成分分析(PCA)是一种无监督学习的线性降维方法,旨在通过线性变换将高维数据投影到低维空间,同时最大化投影后数据的方差(即保留最多的信息)。PCA的核心思想是:找到一个新的坐标系(由主成分定义),使得数据在这个新坐标系下的方差最大,从而捕捉数据的主要变化模式,去除冗余和噪声。PCA常用于数据可视化、特征提取和加速机器学习模型训练[^1][^4]。 下面,我将逐步解释PCA原理和关键步骤,确保结构清晰。整个过程基于数学推导,包括数据标准化、协方差矩阵计算、特征值分解或奇异值分解(SVD),以及数据投影。 #### 1. **数据标准化(中心化)** PCA的第一步是将原始数据标准化,确保每个特征的均值为0。这有助于消除量纲影响,使后续计算更稳定。假设我们有一个数据矩阵 $\mathbf{X} \in \mathbb{R}^{m \times n}$,其中 $m$ 是样本数,$n$ 是特征数(维度)。中心化公式为: $$ \mathbf{X}_{\text{centered}} = \mathbf{X} - \mathbf{\mu} $$ 其中 $\mathbf{\mu}$ 是每个特征的均值向量(即 $\mu_j = \frac{1}{m} \sum_{i=1}^{m} x_{ij}$)。这样处理后,数据在每个维度上的均值都为0[^3][^5]。 #### 2. **计算协方差矩阵** 协方差矩阵描述了特征之间的线性相关性,其元素表示两个特征之间的协方差。计算公式为: $$ \mathbf{C} = \frac{1}{m-1} \mathbf{X}_{\text{centered}}^T \mathbf{X}_{\text{centered}} $$ 这里,$\mathbf{C} \in \mathbb{R}^{n \times n}$ 是一个对称矩阵,对角线元素是每个特征的方差,非对角线元素是协方差。最大化方差的目标体现在最大化协方差矩阵的特征值上[^1][^5]。 例如,在引用[^5]中,给定一个2行5列的矩阵 $\mathbf{X} = \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}$,由于每行均值已为0,协方差矩阵计算为: $$ \mathbf{C} = \frac{1}{5} \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}^T = \begin{pmatrix} \frac{6}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{6}{5} \end{pmatrix} $$ #### 3. **特征值分解或奇异值分解(SVD)** PCA的关键是求解协方差矩阵的特征值和特征向量。特征向量表示主成分的方向(即新坐标系的轴),特征值表示数据在该方向上的方差大小。分解公式为: $$ \mathbf{C} \mathbf{v} = \lambda \mathbf{v} $$ 其中 $\lambda$ 是特征值,$\mathbf{v}$ 是特征向量。特征值越大,表示该方向上的方差越大,因此保留的信息越多[^3][^5]。 在实际计算中,PCA常使用SVD(奇异值分解)替代特征值分解,因为它更稳定(尤其对于大数据集)。SVD将中心化数据矩阵分解为: $$ \mathbf{X}_{\text{centered}} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T $$ 其中 $\mathbf{V}$ 的列向量就是主成分(特征向量),$\mathbf{\Sigma}$ 的对角线元素是奇异值(平方后与特征值成正比)[^5]。 #### 4. **选择主成分数目(降维维度 $k$)** 主成分数目 $k$ 决定了降维后的维度。选择依据是保留足够的信息量(通常95%以上方差)。特征值按降序排序 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$,累积方差比例为: $$ \text{累积方差} = \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{n} \lambda_i} $$ 例如,若 $k=1$ 时累积方差达到85%,则选择第一个主成分。$k$ 的选择需权衡信息保留和降维效果[^2][^4]。 #### 5. **投影数据到主成分空间** 最后,将原始数据投影到选定的主成分上,得到降维后的数据矩阵 $\mathbf{Y} \in \mathbb{R}^{m \times k}$: $$ \mathbf{Y} = \mathbf{X}_{\text{centered}} \mathbf{V}_k $$ 其中 $\mathbf{V}_k$ 是前 $k$ 个特征向量组成的矩阵。新数据 $\mathbf{Y}$ 在低维空间保留了最大方差,实现了降维[^1][^3]。 #### 原理总结 PCA通过最大化方差来提取数据的主成分,本质上是求解协方差矩阵的特征问题。该方法假设数据是线性的,且主成分互不相关(正交)。PCA的优势在于简单高效,但缺点是对非线性数据效果较差,且降维可能导致信息损失(需控制损失阈值)[^4][^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值