PCA和Fisher LDA

最新推荐文章于 2021-11-25 10:46:21 发布

原创最新推荐文章于 2021-11-25 10:46:21 发布 · 434 阅读

0 ·

CC 4.0 BY-SA版权

算法同时被 2 个专栏收录

475 篇文章

订阅专栏

机器学习

74 篇文章

订阅专栏

本文深入探讨了两种主要的降维技术：PCA（主成分分析）和FisherLDA（线性判别分析）。PCA适用于无监督场景，通过最大化数据投影的方差来减少维度；而FisherLDA则是在有监督的情况下，通过优化类间距离与类内距离的比值来进行降维。文章详细解释了这两种方法的数学原理和实现过程。

PCA

PCA主要用于没有标签的降维，想法就是把数据投影在某个方向上，使得信噪比最大，也就是投影的方差最大。

对于给定的一组数据 $x_1, x_2,...,x_n$ ，其中每一个都是列向量，假设投影方向的单位列向量是w，投影后的方差可以表示为
$D(x)=\frac{1}{n}\sum_{i=1}^n(x_i^Tw)^2\\ D(x)=\frac{1}{n}\sum_{i=1}^n(x_i^Tw)^T(x_i^Tw)\\ D(x)=w^T[\frac{1}{n}\sum_{i=1}^n(x_ix_i^T)]w$
中间刚好是协方差矩阵 $Σ\Sigma$ ，所以目标函数就是
$\argmax_w w^T\Sigma w \\ s.t. w^Tw=1$
所以拉格朗日乘数法就上了，可以推出
$D(x)=w^T\Sigma w=\lambda w^T w=\lambda$
所以x投影后的方差就是协方差矩阵的特征值，投影的方向就是特征值对应的特征向量。哪个投影方向好就是特征值较大的方向，最后取特征值较大的特征向量的方向。

Fisher LDA

Fisher LDA是有监督的降维，降维目标是类间距离和类内距离的比值达到最大，也就是
$J(w)=\frac{w^T(u_1-u_2)(u_1-u_2)^Tw}{\sum_{x \in C_i}w^T(x-u_i)(x-u_i)^Tw} \\ S_B=(u_1-u_2)(u_1-u_2)^T\\ S_W=\sum_{x \in C_i}(x-u_i)(x-u_i)^T\\$
其中 $u_i$ 表示第i类的均值向量， $S_B$ 和 $S_W$ 可以看成是类间和类内的散列矩阵
问题可以简化成
$J(w)=\frac{w^TS_Bw}{w^TS_Ww}$
我们要最大化 $J (w)$ ，对它求偏导。先补充一点矩阵偏导的推导，利用迹trace。如果A是方阵，w是列向量，那么可以有以下表达式，这个如果直接求容易被矩阵绕晕掉：
$f(w)=w^TAw\\ \frac{\partial f(w)}{\partial w}=w^T(A^T+A)$
推导可以利用迹trace，如下：
$df(w)=(dw)^TAw+w^TAdw\\ tr[df(w)]=tr([dw)^TAw]^T+w^TAdw)\\ tr[df(w)]=tr(w^TA^Tdw+w^TAdw)$
所以最后 $∂f(w)∂w\frac{\partial f(w)}{\partial w}$ 是一个列向量，如果想把它变成行向量再转置一个就好。
有了推导的方法，可以得到
$w^TS_Ww)S_Bw=(w^TS_Bw)S_Ww$
$w^TS_Bw)$ 和 $w^TS_Ww)$ 是两个数，可以令 $λ=J(w)\lambda=J(w)$ ，所以可以得到
$S_W^{-1}S_Bw=\lambda w$
所以这个问题也变成了求矩阵特征值的解法
最后还有两点需要注意：

对于二分类，由于 $S_B=(u_1-u_2)(u_1-u_2)^T$ ，因此最终投影方向 $S_Bw$ 和均值方向的差 $u_1-u_2)$ 是一样的。因为 $u_1-u_2)^Tw$ 是个数字
如果只考虑方向，不考虑长度，可以得
$SW−1k(u1−u2)=λwS_W^{-1}k(u_1-u_2)=\lambda w$
也就是说，可以只算样本的均值和类的方差，就可以快速得到投影方向w

更多内容参考葫芦书