降维方法

最新推荐文章于 2024-10-06 16:03:55 发布

Flyingzhan

最新推荐文章于 2024-10-06 16:03:55 发布

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：降维 PCA LLE MDS

本文链接：https://blog.youkuaiyun.com/Flyingzhan/article/details/103225392

机器学习专栏收录该内容

13 篇文章

订阅专栏

降维方法

1：Multidimensional Scaling(MDS)

MDS是一种降维或者可视化算法，通过使得降维之后的数据能够保留原始数据之间的相似度（或者不相似度，距离）等等，来将数据映射到低维空间。

假设原始数据的距离矩阵D已知，比如说下面的形式：

我们使用stress来衡量映射的好坏：

上面的这些符号来自于https://www.ncss.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Multidimensional_Scaling.pdf。

kruskal在1964年的文章里面，使用如下的基准衡量降维之后效果的好坏：

传统MDS的算法流程如下：

上面对MDS进行了大概的说明，下面根据知乎的一篇文章https://zhuanlan.zhihu.com/p/50715681对数学形式进行一些说明：

首先，假设我们存在一个距离矩阵，记录着任意两个点的欧氏距离，我们希望降维之后的数据分布能够保留这种相对的关系。欧氏距离的公式如下：

因为数据之间的内积比较好计算，因此我们希望将任意两个点之间的距离表示成内积的形式：

上式假设数据的均值为0（和PCA一样，只要做数据预处理就行，减去均值），因此内积可以表示为：

这里B代表的就是数据内积，我们希望找到一组新的特征X，使得它们的内积能够尽可能的接近B：

上式的解法就是对B进行特征值分解，选前k个特征向量，到这里，上面的推导和最开始的算法是吻合的。当D时根据欧氏距离计算的，MDS的效果和PCA一致。在sklearn上，对手写体数字进行降维显示的结果为：

2：PCA

关于PCA的文章有很多，比如说这篇https://blog.youkuaiyun.com/zhongkejingwang/article/details/42264479，PCA和MDS都是线性的降维方法，MDS的目标是使得降维之后的数据能够保持原来的距离，而PCA的降维目标是使得降维之后的数据方差最大，根据bishop-PRML，PCA可以根据两种方式推导出（推导出求协方差矩阵，然后求特征值），一种是最大化方差，一种是最小化降维误差，我这里主要对第一种进行介绍，因为第一种也最符合PCA一直以来的特点。

首先考虑降到一维，那么降维之后数据方差为，其中u代表D维的向量，可以将D维数据映射到一个值：

根据上面的uSu的目标函数，最大化该目标函数的话，存在一种特殊情况就是 $u\rightarrow \infty$ ，因此我们需要限制u的大小。可以假设u是正交向量，满足 $u^{T}u=1$ ，因此使用拉格朗日乘子法，优化目标可以变为：

根据拉格朗日解法，对u求偏导等于0，可以得到：

可知λ是S的特征值，u是对应的特征向量， $u^{T}u=1$ ，上式可以写成如下形式：

可以进一步写成： $\frac{u^{T}_{1}Su_{1}}{u^{T}_{1}u_{1}}=\lambda _{1}$ ，因此根据Rayleigh Ratio（瑞丽比）的兴致我们知道，当 $\lambda _{1}, u_{1}$ 分别是S的最大的特征值和特征向量的时候，上式最大。在sklearn上，对手写体数字进行降维显示的结果为：