PCA原理与计算-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_45769877/article/details/114855701

文章目录

Introduction
Calculation
- - Lagrange multiplier
PCA-decorrelation

Introduction

PCA的目的是要将原有数据投影到新的空间，通过观察全局数据特点对数据赋予新的属性后进行转换，做到降维的同时尽可能增加数据的区分度。

数据投影
假设现在有样本数据object $x$ 和投影方向向量 $w$ ， $z=w\cdot x$ 则代表着将object投影到该方向上，其中 $w$ 作为方向向量其长度为1（ $w||_2=1$ ）。经过计算，每个object在这个方向上都有一个scalar，那么这个投影方向可以用来区分不同object，也就可以作为一个attribute dimension。
在这里插入图片描述
PCA通过寻找最优的方向，能够最大程度上区分样本数据，通常方向也不止一个，且各个方向保持垂直进而形成新的空间。

衡量标准
投影方向 $w$ 的好坏，通过所有object经过投影之后得到的分布来衡量，分布散意味着经过这个投影后不同样本点之间可以较好的区别。
在这里插入图片描述
通过投影后数据的variance代表这一标准的量化：
$Var(z)=\frac{1}{N}\sum\limits_{z}(z-\bar{z})^2$

Calculation

将单个数据样本投影到新空间：
$z = W x$

$x$ 表示单个原有数据样本
- $x=\left[ \begin{matrix} x_1 \\ x_2\\ \vdots\\ x_m\end{matrix} \right]$ （ $m \times 1$ ）
$W$ 表示映射矩阵
- $W=\left[ \begin{matrix} (w^1)^\intercal \\ (w^2)^\intercal\\ \vdots\\ (w^n)^\intercal\end{matrix} \right]$ （ $n \times m$ ）
- $w^i$ ：映射方向，两两正交，因此 $W$ 是正交矩阵(orthogonal matrix)
$z$ 表示将 $x$ 映射到新空间的位置
- $z=\left[ \begin{matrix} z_1 \\ z_2\\ \vdots\\ z_n\end{matrix} \right]$ （ $n \times 1$ ）
- $z_1=w^1\cdot x$ 表示 $x$ 在 $w^1$ 方向上的投影， $z_2=w^2\cdot x$ 表示 $x$ 在 $w^2$ 方向上的投影，… …

Lagrange multiplier

求解PCA有现成的函数可以调用，也可以把PCA描述成neural network用gradient descent的方法求解，这里用拉格朗日乘数法(Lagrange multiplier)求解PCA。

$w^1$ 计算过程

计算 $\bar{z_1}$ ：
$\begin{aligned} &z_1=w^1\cdot x\\ &\bar{z_1}=\frac{1}{N}\sum z_1=\frac{1}{N}\sum w^1\cdot x=w^1\cdot \frac{1}{N}\sum x=w^1\cdot \bar x \end{aligned}$

计算 $Var(z_1)$ ：
$\begin{aligned} Var(z_1)&=\frac{1}{N}\sum\limits_{z_1} (z_1-\bar{z_1})^2\\ &=\frac{1}{N}\sum\limits_{x} (w^1\cdot x-w^1\cdot \bar x)^2\\ &=\frac{1}{N}\sum (w^1\cdot (x-\bar x))^2\\ &=\frac{1}{N}\sum(w^1)^T(x-\bar x)(x-\bar x)^T w^1\\ &=(w^1)^T\frac{1}{N}\sum(x-\bar x)(x-\bar x)^T w^1\\ &=(w^1)^T Cov(x)w^1 \end{aligned}$

$Cov(x)=\frac{1}{N}\sum(x-\bar x)(x-\bar x)^T$ ，定常矩阵
- 对称(symmetric)
- 半正定(positive-semidefine)
- 非负(non-negative)特征值(eigenvalues)

目标函数：
${\underset {w^1}{\operatorname {arg\ max} }}\,Var(z_1) =(w^1)^T Cov(x)w^1\\ s.t. \ \ \ ||w^1||_2=1$

$w^1||_2=(w^1)^Tw^1$

拉格朗日乘数法构造函数：
$g(w^1)=(w^1)^TSw^1-\alpha((w^1)^Tw^1-1)$

$S = C o v (x)$ ，定常矩阵

拉格朗日乘数法求极值：

对 $w^1$ vector中每一个element做偏微分：
$\partial g(w^1)/\partial w_1^1=0\\ \partial g(w^1)/\partial w_2^1=0\\ \partial g(w^1)/\partial w_3^1=0\\ ...$
整理上述推导式，可以得到 $w^1$ 是S的特征向量(eigenvector)：
$Sw^1=\alpha w^1$
带入目标函数：

$(w^1)^TSw^1=(w^1)^T \alpha w^1=\alpha (w^1)^T w^1=\alpha$

结论
maximize $w^1)^TSw^1$ 的问题转化为maximize $\alpha$ ，那矩阵 $S$ 的特征值 $\alpha$ 最大时对应的那个特征向量 $w^1$ 就是目标向量。也就是说 $w^1$ 是 $S = C o v (x)$ 这个matrix中的特征向量，对应最大的特征值 $\lambda_1$ 。

$w^2$ 计算过程

目标函数：
${\underset {w^2}{\operatorname {arg\ max} }}\,Var(z_2) =(w^2)^T Cov(x)w^2\\ s.t. \ \ \ (w^2)^Tw^2=1\\ \ \ \ \ \ \ \ \ \ (w^2)^Tw^1=0$

不仅需要限制 $w^2$ 长度为1，同时 $w^2$ 和 $w^1$ 需保持正交(orthogonal)

拉格朗日乘数法构造函数：
$g(w^2)=(w^2)^TSw^2-\alpha((w^2)^Tw^2-1)-\beta((w^2)^Tw^1-0)$

拉格朗日乘数法求极值：

对 $w^2$ vector中每一个element做偏微分：
$\partial g(w^2)/\partial w_1^2=0\\ \partial g(w^2)/\partial w_2^2=0\\ \partial g(w^2)/\partial w_3^2=0\\ ...$
整理后得到：
$Sw^2-\alpha w^2-\beta w^1=0$
上式两侧同乘 $w^1)^T$ ，得到：
$(w^1)^TSw^2-\alpha (w^1)^Tw^2-\beta (w^1)^Tw^1=0$
带入限制条件 $w^2)^Tw^2=1$ 和 $w^2)^Tw^1=0$ ，得到：
$(w^1)^TSw^2-\beta=0$
对 $w^1)^TSw^2$ 做transpose：
$\begin{aligned} (w^1)^TSw^2&=((w^1)^TSw^2)^T\\ &=(w^2)^TS^Tw^1\\ &=(w^2)^TSw^1\ \ \ \ \ \ (注：S^T=S) \end{aligned}$
$w^1$ 满足 $Sw^1=\lambda_1 w^1$ ，代入上式：
$\begin{aligned} (w^1)^TSw^2&=(w^2)^TSw^1\\ &=\lambda_1(w^2)^Tw^1\\ &=0 \end{aligned}$
$w^1)^TSw^2=0$ ， $(w^1)^TSw^2-\beta=0$ ，得到：
$\beta=0$
拉格朗日求极值公式 $Sw^2-\alpha w^2-\beta w^1=0$ 变为 $Sw^2-\alpha w^2=0$ ，即：
$Sw^2=\alpha w^2$