PCA学习笔记

最新推荐文章于 2024-11-04 22:48:08 发布

原创最新推荐文章于 2024-11-04 22:48:08 发布 · 771 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据

数学-凸优化同时被 2 个专栏收录

14 篇文章

订阅专栏

算法

7 篇文章

订阅专栏

##主成分分析（PCA）是一个很普通的数据将维方法，但是也是很常用的一个方法。虽然不难理解，但是时间一长容易和LDA搞混，于是决定自己重新梳理一遍。

####数据集的0维代表
$假设你有n个d维样本\mathbf {x_1，x_2,\cdots, x_n},如果我们希望用一个d维的向量代表\\ 这n个样本，或者说找一个代表向量和其他样本的总体差距越小越好（体现代表性）\\，定义平方误差准则函数:$
$J_0(\mathbf x_0)=\sum_{k=1}^{n}\|\mathbf{x_0-x_k}\|^2$
我们要找到能够使上面 $J_0(\mathbf x_0)$ 最小化的那个 $d$ 维向量 $\mathbf x_0$ .容易猜到这个问题的解答是 $\mathbf{x_0=m}$ ,其中 $\mathbf m$ 是样本均值，
$\mathbf m=\frac 1 n\sum_{k=1}^n\mathbf x_k$
我们直接对 $\mathbf x_0$ 求偏导有：
$\frac {\partial J_0(\mathbf x_0)} {\partial\mathbf x_0}=\sum_{k=1}^n2(\mathbf{x_0-x_k})=0$
$2n\mathbf x_0=\sum_{k=1}^n2\mathbf x_k$
样本均值是数据集的零维表达，它非常简单，以至于丢到太多信息，无法反映出样本之间的不同，完全可以假设所有样本都是 $\mathbf m$ .所以我们想能不能用一维数据来代表样本集，显然这一维需要时能体现差别的，如我们有100名小学生数据，假设有年龄、性别，成绩，身高这4个记录，显然如果我们选择身高作为代表数据，显然不能去判断这个学生是不是优秀学生，性别也是如此，只有选取成绩这一项，才能体现他们的差距。那么接下里就引入PCA方法了。

####PCA分析
一个 $n 维向量，如何变为一维呢？先给个直观的几何图形$
这里写图片描述
如图显示一个二维数据样本， $假设 x 和 y 不相关$ ，如果我们从 $x 和 y$ 中选取一维代替原先的数据,那么应该选择哪一维呢？很显然应该选择 $x$ 维，因为我们的直观感受是， $x$ 维上的数据区分比较大，更能代表数据的特征。在将这种直观感受转化为数学语言前，我们还要考虑一个小问题，如何将 $d$ 维数据转化为一维？
从上面的图可以看出，我们通过投影方法可以将数据映射到坐标轴上。实际上是执行下面这个过程：以投影到x轴为例
$z=(1,0)^T(x,y)$
用向量的形式写为：
$\mathbf{z=w^Tx}$
于是乎我们就回忆起中学学过的向量了
这里写图片描述
点 $P$ 在向量 $\vec {AB}上的投影点P'满足$
$|AP'|=|AP|cos\theta=\frac{\vec{AP}\cdot\vec{AB}}{|\vec {AB}|}$
取 $|\vec{AB}|=1$ ,若A为原点，则P点的投影坐标为：
$z=\vec{AP}\cdot\vec{AP}$
显然AB不用是x轴，A点不是原点也没有关系，因为它不影响数据集的分布，总是可以通过去中心化转化为一维坐标。

####数学推导一
好了我们差不多可以进行数学分析了。假设 $\mathbf e$ 为数据集要投影的直线上的单位向量，那么这条直线方程可以表示为：
$\mathbf{x=m+}a\mathbf e$
其中 $a$ 为一个实数标量，表示直线上的某个点离 $\mathbf m$ 的距离。
$假设原数据点\mathbf x_k在直线上的投影为\mathbf m+a_k\mathbf e，那么通过最小化平方误差准则函\\数，我们能够得到一系列最优a_k的集合，其过程如下：$
$J_1(a_1,\cdots,a_n,\mathbf e)=\sum_{k=1}^n\|(\mathbf m+a_k\mathbf e)-\mathbf x_k\|^2$ $=\sum_{k=1}^n\|a_k\mathbf {e}-(\mathbf x_k-\mathbf m)\|$ $=\sum_{k=1}^n a_k^2\|\mathbf e\|^2-2\sum_{k=1}^n a_k\mathbf e^T(\mathbf{x}_k-\mathbf m)+\sum_{k=1}^n\|\mathbf x_k-\mathbf m\|^2$
由于 $\|\mathbf e\|=1$ ,通过对 $a_k$ 求偏导，并令结果为0，我们可以得到：
$a_k=\mathbf e^T(\mathbf x_k-\mathbf m)$
从几何意义上说，只要把向量 $\mathbf x_k$ 向通过样本均值的直线 $\mathbf e$ z作投影就能够得到最小方差结果。而减去样本均值就是对应于前面所说的去中心化：
这里写图片描述

####寻找投影方向
现在剩下的问题是寻找投影方向$ \mathbf e$从前面的图形例子中我们可以感受到：我们要投影的方向实际上就是数据集方差最大的方向。根据香农的信息论得知，数据越混乱，其包含的信息量就越大，熵越大。这里我们可以用方差来表示数据的波动性，也就是说：方差就是信息方差越大，信息量就越大。
对于高维数据，我们定义离散度矩阵：
$\mathbf S=\sum_{k=1}^n(\mathbf x_k-\mathbf m)(\mathbf x_k-\mathbf m)^T$
这个离散度矩阵是半正定的，为了证明我们只需要证明该矩阵的特征值不小于0即可。具体过程见补充部分一。
投影点的均值：
$\mathbf \mu=\frac 1 n\sum_{k=1}^n(\mathbf m+a_k\mathbf e)=\mathbf m+\frac{\mathbf e} n\sum_{k=1}^n a_k$ $=\mathbf m+\frac{\mathbf e} n\sum_{k=1}^n \mathbf e^T(\mathbf x_k-\mathbf m)=\mathbf m$
那么方差为：
$\mathbf V=\frac 1 n\sum_{k=1}^n\|\mathbf m+a_k\mathbf e-\mathbf m\|^2$ $=\frac 1 n\sum_{k=1}^n\|\mathbf e(\mathbf e^T(\mathbf x_k-{\mathbf m}))\|^2=\sum_{k=1}^n\mathbf e^t(\mathbf x_k-\mathbf m)(\mathbf x_k-\mathbf m)^T\mathbf e$ $=\mathbf e^t\mathbf{Se}$
好了我们终于得到一个简单的式子，最大化 $\mathbf e^t\mathbf{Se}$ ,别忘了我们还有一个约束条件 $\|\mathbf e\|=1$ ,对于有约束条件的极值问题我们一般用拉格朗日乘子法，于是得到
$L(\mathbf e,\lambda)=\mathbf e^t\mathbf{Se}-\lambda(\mathbf e^t\mathbf e-1)$
对这个式子求偏导得：
$\frac{\partial L}{\partial \mathbf e}=2\mathbf{Se}-2\lambda\mathbf e=0$
$\mathbf{Se}=\lambda\mathbf e$
发现什么了没有？没错， $\lambda和\mathbf e$ 分别对应离散度矩阵的特征值和特征向量，我们选取特征值最大的特征向量作为投影方向。显然结论不局限于二维平面，对于高维数据也是成立的，对于高维数据我们往往是将其投影到超平面。实际操作步骤见补充二。

####小结
用PCA将维，只需要求出离散度矩阵的特征值和特征向量即可，对于普通数据，直接调用matlab函数便可立即求解，而对于上百万维数据，则需要用迭代的方法求解特征值,我们不必求出全部特征值，只需要选取前面若干个最大特征值即可。特征值在矩阵分析中具有非常重要的地位，很多数据挖掘算法都会用到特征值这一概念，所以请务必深刻理解特征值。

####补充一
我们在求 $\mathbf e^t\mathbf{Se}$ 没有考虑最大的存在性，由数学原定知道，当 $\mathbf S$ 是半正定矩阵时， $\mathbf e^t\mathbf{Se}$ 存在最大值。定义为
$\mathbf S=\sum_{k=1}^n(\mathbf x_k-\mathbf m)(\mathbf x_k-\mathbf m)^T$
我们可以做数据预处理：将样本的每一维减去对应维的样本均值，那么离散度矩阵（实际为样协方差矩阵的n-1倍）可以写为：
$\mathbf S=\sum_{k=1}^n\mathbf x_k\mathbf x_k^T=\mathbf x_1\mathbf x_1^T+\cdots+\mathbf x_n\mathbf x_n^T$ $=(\mathbf{x_1,x_2,\cdots,x_n)}(\mathbf x_1^T,\mathbf x_2^T,\cdots,\mathbf x_n^T)^T$
令 $\mathbf X=(\mathbf{x_1,x_2,\cdots,x_n)}$
则 $\mathbf {S=XX}^T$
设 $\lambda$ 为其特征值 $\xi$ 为对应的特征向量，则有：
$\mathbf S\xi=\lambda\xi=\mathbf{XX}^T\xi$
$\xi^T\mathbf{XX}^T\xi=\lambda\|\xi\|^2=\|\mathbf X^T\xi\|^2\ge 0$
所以 $\lambda\ge0$
证毕。

####补充二
总结一下PCA的算法步骤：

设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3）求出协方差矩阵 $C=\frac{1}{m}XX^\mathsf{T}$

4）求出协方差矩阵的特征值及对应的特征向量

5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

6）Y=PX即为降维到k维后的数据

####推荐博客

###关于LDA
本来是想再自己写一下关于LDA的东西的，但是发现已经有很多博客，而且都写得很好，所以这里搬一些连接过来就好了。LDA与PCA最主要区别是：LDA是针对多个类别做投影，而PCA是对原始数据做投影，对多个类别做投影不能只考虑最大化投影方差，还要考虑类之间的间隔，记住这一点就不会搞混了。
下面是参考文章，注意文章后面给的参考资料也是很好的