机器学习(五)降维

机器学习：PCA与LDA降维原理解析

最新推荐文章于 2024-06-04 06:00:00 发布

原创最新推荐文章于 2024-06-04 06:00:00 发布 · 612 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #降维 #PCA #LDA #LLE

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了机器学习中的两种降维方法——PCA（主成分分析）和LDA（线性判别分析）。PCA通过最大化方差保留数据信息，适合线性相关变量的无监督降维，但易受异常值影响。LDA是监督降维方法，旨在最大化类别间距离，适用于分类任务，但受限于样本分布和降维维度。

机器学习(五)降维

5.1 PCA
用 $d\prime$ 维向量表示 $d$ 维向量样本，使得降维后的数据与源数据平方误差最小（投影到低维子空间中，使得原始数据在这个子空间的各个方向方差最大化）

从最大重构性推导：
假设样本进行了中心化， $\sum_ix_i=0$ ，假设投影变换后得到的新坐标系为 $\{w_1,w_2,...,w_{d\prime}\}$ ，标准正交基，样本点 $x_i$ 低纬投影为为 $z_i=\{z_{i1},z_{i2},...,z_{id\prime}\}$ ，其中 $z_{ij}=w_j^Tw_i$ 是 $x_i$ 在低纬坐标下第 $j$ 维的坐标，若基于 $z_i$ 来构建 $x_i$ ，则会得到 $\hat x_i=\sum_{j=1}^{d\prime}z_{ij}w_j$
有 $W, d\times d\prime$ ， $z_i=W^Tx_i$

\sum i = 1 m | | \sum j = 1 d' z i j w j - x i | | 22 = = = = = = \sum i = 1 m | | W z i - x i | | 22 \sum i = 1 m (W z i - x i) T (W z i - x i) \sum i = 1 m z T i W T W z i - 2 \sum i = 1 m z T i W T x i + c o n s t \sum i = 1 m z T i z i - 2 \sum i = 1 m z T i W T x i + c o n s t \sum i = 1 m x T i W W T x i - 2 \sum i = 1 m x T i W W T x i + c o n s t - \sum i = 1 m x T i W W T x i + c o n s t \propto - t r (W T (\sum i = 1 m x i x T i) W) (5.1.1)

$\begin{align} \sum_{i=1}^m||\sum_{j=1}^{d\prime}z_{ij}w_j-x_i||_2^2=&\sum_{i=1}^m||Wz_i-x_i||_2^2\notag\\ =&\sum_{i=1}^m(Wz_i-x_i)^T(Wz_i-x_i)\notag\\ =&\sum_{i=1}^mz_i^TW^TWz_i-2\sum_{i=1}^mz_i^TW^Tx_i+const\notag\\ =&\sum_{i=1}^mz_i^Tz_i-2\sum_{i=1}^mz_i^TW^Tx_i+const\notag\\ =&\sum_{i=1}^mx_i^TWW^Tx_i-2\sum_{i=1}^mx_i^TWW^Tx_i+const\notag\\ =&-\sum_{i=1}^mx_i^TWW^Tx_i+const\notag\\ &\propto -tr(W^T(\sum_{i=1}^mx_ix_i^T)W) \tag{5.1.1} \end{align}$
目标函数为：

min W - t r (W T X X T W) s . t . W T W = I (5.1.2)

$\begin{align} &\min_W -tr(W^TXX^TW) \notag\\ &s.t. W^TW=I \tag{5.1.2} \end{align}$

从最大可分性推导：
样本点在空间超平面的投影是 $W^Tx_i$ ，若使所有样本点尽可能分开，则应使投影样本方差最大化
样本点投影方差是 $\max_W\sum_{i=1}^m W^Tx_ix_i^TW$
于是优化目标为：

max W t r (W T X X T W) s . t . W T W = I (5.1.3)

$\begin{align} &\max_W tr(W^TXX^TW) \notag\\ &s.t. W^TW=I \tag{5.1.3} \end{align}$

使用拉个朗日乘子法

L (W; λ) = t r (W T X X T W) + λ I - λ W T W (5.1.4)

$L(W;\lambda)=tr(W^TXX^TW)+\lambda I- \lambda W^TW\tag{5.1.4}$

\partial L \partial W = 2 X X T W - 2 λ W (5.1.5)

$\frac{\partial L}{\partial W} = 2XX^TW-2\lambda W\tag{5.1.5}$
上式等于0，可得

X X T W = λ W

$XX^TW=\lambda W$

于是只需要对协方差矩阵 $X^TX$ 进行特征值分解，对特征进行排序，取前 $d\prime$ 个特征值对应的特征向量构成 $W=\{w_1,w_2,...,w_{d\prime}\}\tag{5.1.6}$

$d\prime$ 选取方式，指定 $d\prime$ ，或根据如下阈值

\sum d ' i = 1 λ i \sum d i = 1 λ i \geq t (5.1.7)

$\frac{\sum_{i=1}^{d\prime}\lambda_i}{\sum_{i=1}^{d}\lambda_i}\geq t\tag{5.1.7}$

特点：
少数特征值可以表示原数据中的绝大部分信息，剩下的小特征被认为是数据噪音给丢掉
适用于变量线性相关但其未使用Label 无监督线性关系
以方差衡量信息的无监督学习，不受样本标签限制，
各主成分之间正交，可消除原始数据成分间的相互影响
计算方法简单，易于实现。

缺点：
特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声，但实际上，向小一点的特征根方向投影也有可能包括我们感兴趣的数据；
特征向量的方向是互相正交（orthogonal）的，这种正交性使得PCA容易受到Outlier的影向
主成分解释其含义往往具有一定的模糊性，不如原始样本完整
贡献率小的主成分往往可能含有对样本差异的重要信息
特征值矩阵的正交向量空间是否唯一有待讨论
无监督学习

PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。

5.2 LDA
LDA线性判别分心(Fisher Linear Discriminant)是一种有监督的（supervised）线性降维算法。与PCA保持数据信息不同，LDA是为了使得降维后的数据点尽可能地容易被区分

投影到一条直线上，同类尽可能近，异类尽可能远

二分类：
给定数据集 $D={(x_i,y_i)}_{i=1}^m,y_i\in \{0,1\}$ ，令 $X_i,\mu_i,\Sigma_i$ 分别表示第 $i\in \{0,1\}$ 类示例的集合、均值向量、协方差矩阵
将其投影得到两类样本中心 $w^T\mu_0$ ， $w^T\mu_1$ ，将其所有样本点投影到直线得到两类样本的协方差为 $w^T\Sigma_0w$ 、 $w^T\Sigma_1w$
同类样例的投影点尽可能近，可以让同类样例协方差竟可能小 $w^T\Sigma_0w+w^T\Sigma_1w$
异类样例的投影点尽可能远，可以上类中心二等距离尽可能的大 $||w^T\mu_0+w^T\mu_1||^2_2$

目标函数：

J = | | w T μ 0 - w T μ 1 | | 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 - μ 1 ) ( μ 0 - μ 1 ) T w w T ( Σ 0 + Σ 1 ) w (5.2.1)

$J=\frac{||w^T\mu_0-w^T\mu_1||^2_2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}\tag{5.2.1}$
定义类内散度矩阵

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T (5.2.2)

$S_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T\tag{5.2.2}$
定义类间散度矩阵

S b = (μ 0 - μ 1) (μ 0 - μ 1) T (5.2.3)

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T\tag{5.2.3}$
改写目标函数

J = w T S b w w T S w w (5.2.4)

$J=\frac{w^TS_bw}{w^TS_ww}\tag{5.2.4}$

LDA最大化为如上目标函数，这个目标函数又称为 $S_b,S_w$ 的广义瑞利商
分子分母均存在 $w^Tw$ ， $w$ 的长度与解无关，令 $w^TS_ww=1$ ，则将目标函数等价于

min w - w T S b w s . t . w T S w w = 1 (5.2.5)

$\begin{align} &\min_w-w^TS_bw\notag\\ &s.t. w^TS_ww=1\tag{5.2.5} \end{align}$

使用拉格朗日乘子法：

J (w, λ) = - w T S b w + λ (w T S w w - 1) (5.2.6)

$J(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)\tag{5.2.6}$

SbSb $S_b$ 对称，固：

\partial w T S b w \partial w = 2 S b w (5.2.7)

$\frac{\partial w^TS_bw}{\partial w}=2S_bw\tag{5.2.7}$

\partial J \partial w = - 2 S b w + 2 λ S w w = 0 (5.2.8)

$\frac{\partial J}{\partial w}=-2S_bw+2\lambda S_ww=0\tag{5.2.8}$
可得到：

S b w = λ S w w (5.2.9)

$S_bw=\lambda S_ww\tag{5.2.9}$
由于

Sbw=(μ0−μ1)(μ0−μ1)TwSbw=(μ0−μ1)(μ0−μ1)Tw $S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ 是标量，方向恒为

μ0−μ1μ0−μ1 $\mu_0-\mu_1$ ，不妨令

Sbw=λ(μ0−μ1)Sbw=λ(μ0−μ1) $S_bw=\lambda(\mu_0-\mu_1)$ 代入

(5.2.9)(5.2.9) $(5.2.9)$
可得：

w = S - 1 w (μ 0 - μ 1) (5.2.10)

$w=S_w^{-1}(\mu_0-\mu_1)\tag{5.2.10}$
考虑数值解的稳定性，通常进行奇异值分解，

Sw=UΣVTSw=UΣVT $S_w=U\Sigma V^T$ ，之后

S−1w=UΣ−1VTSw−1=UΣ−1VT $S_w^{-1}=U\Sigma^{-1} V^T$ ，即可得最佳投影方向

如何降维？：
由(5.2.9)，得 $S_w^{-1}S_bw=\lambda w$
对于矩阵 $S_w^{-1}S_b$ 的最大d个特征值对应的d个特征 ${w_1, w_2, ...w_d}$ 组成投影矩阵W
对于每一个样本 $x_i$ ， $z_i=W^Tx_i$

多分类:
全局散度矩阵定义:

S t = S b + S w = \sum i = 1 m (x - μ) (x i - μ) T (5.2.11)

$S_t=S_b+S_w=\sum_{i=1}^m(x-\mu)(x_i-\mu)^T\tag{5.2.11}$

S w = \sum i = 1 N S w i (5.2.12)

$S_w=\sum_{i=1}^NS_{w_i}\tag{5.2.12}$
其中：

S w i = \sum x \in X i (x - μ i) (x - μ i) T (5.2.13)

$S_{w_i}=\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T\tag{5.2.13}$
由

5.2.12与5.2.135.2.12与5.2.13 $5.2.12与5.2.13$ ，

mimi $m_i$ 为类i的个数

S b = S t - S w = \sum i = 1 N m i (μ i - μ) (μ i - μ) T (5.2.14)

$S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T\tag{5.2.14}$
优化目标为：

max W = t r ( W T S b W ) t r ( W T S w W )

$\max_W=\frac{tr(W^TS_bW)}{tr(W^TS_wW)}$
W的闭式解为

S−1wSbwSw−1Sbw $S_w^{-1}S_bw$ 的最大N-1(l类别数-1)个特征值对应的特征向量

优点：
在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优

缺点：
不适用于非高斯分布样本进行降维(PCA也是)，PCA一般要进行whitening
LDA降维最多降到类别数k-1的维数
LDA可能过度拟合数据。
LDA在样本分类信息依赖方差而不是均值的时候，较PCA之类的算法差

PCA是为了去除原始数据集中冗余的维度，让投影子空间的各个维度的方差尽可能大，也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度，使得原始数据在这些维度上的投影，不同类别尽可能区分开来。

5.3 LLE 流行学习
一种非线性降维算法，它能够使降维后的数据较好地保持原有流形结构，试图保持邻域内样本的线性关系，可以通过领域内样本重构

min w 1, w 2, . . ., w n \sum i = 1 m | | w i - \sum j \in Q i w i j x j | | 22 s . t . \sum j \in Q i w i j = 1 (5.3.1)

$\begin{align} &\min_{w_1,w_2,...,w_n}\sum_{i=1}^m||w_i-\sum_{j\in Q_i}w_{ij}x_j||^2_2 \notag\\ &s.t. \sum_{j\in Q_i}w_{ij}=1\tag{5.3.1} \end{align}$

QiQi $Q_i$ 为

xixi $x_i$ 的近邻下集合，令

Cjk=(xi−xj)T(xi−xk)Cjk=(xi−xj)T(xi−xk) $C_{jk}=(x_i-x_j)^T(x_i-x_k)$ ，

wijwij $w_{ij}$ 有闭式解：

w i j = \sum k \in Q i C - 1 j k \sum l , s \in Q i C - 1 l s (5.3.2)

$w_{ij}=\frac{\sum_{k\in Q_i}C_{jk}^{-1}}{\sum_{l,s\in Q_i}C_{ls}^{-1}}\tag{5.3.2}$
LLE在低维子空间中

wiwi $w_i$ 不变，于是可以通过如下表达式求解：

min z 1, z 2, . . ., z n \sum i = 1 m | | z i - \sum j \in Q i w i j z j | | 22 (5.3.3)

$\min_{z_1,z_2,...,z_n}\sum_{i=1}^m||z_i-\sum_{j\in Q_i}w_{ij}z_j||^2_2 \tag{5.3.3}$