降维方法

降维方法

1:Multidimensional Scaling(MDS)

MDS是一种降维或者可视化算法,通过使得降维之后的数据能够保留原始数据之间的相似度(或者不相似度,距离)等等,来将数据映射到低维空间。

假设原始数据的距离矩阵D已知,比如说下面的形式:

我们使用stress来衡量映射的好坏:

上面的这些符号来自于https://www.ncss.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Multidimensional_Scaling.pdf。 

kruskal在1964年的文章里面,使用如下的基准衡量降维之后效果的好坏:

传统MDS的算法流程如下: 

 

上面对MDS进行了大概的说明,下面根据知乎的一篇文章https://zhuanlan.zhihu.com/p/50715681对数学形式进行一些说明:

首先,假设我们存在一个距离矩阵,记录着任意两个点的欧氏距离,我们希望降维之后的数据分布能够保留这种相对的关系。 欧氏距离的公式如下:

因为数据之间的内积比较好计算,因此我们希望将任意两个点之间的距离表示成内积的形式:

上式假设数据的均值为0(和PCA一样,只要做数据预处理就行,减去均值),因此内积可以表示为:

 这里B代表的就是数据内积,我们希望找到一组新的特征X,使得它们的内积能够尽可能的接近B:

上式的解法就是对B进行特征值分解,选前k个特征向量,到这里,上面的推导和最开始的算法是吻合的。 当D时根据欧氏距离计算的,MDS的效果和PCA一致。在sklearn上,对手写体数字进行降维显示的结果为:

2:PCA

关于PCA的文章有很多,比如说这篇https://blog.youkuaiyun.com/zhongkejingwang/article/details/42264479,PCA和MDS都是线性的降维方法,MDS的目标是使得降维之后的数据能够保持原来的距离,而PCA的降维目标是使得降维之后的数据方差最大,根据bishop-PRML,PCA可以根据两种方式推导出(推导出求协方差矩阵,然后求特征值),一种是最大化方差,一种是最小化降维误差,我这里主要对第一种进行介绍,因为第一种也最符合PCA一直以来的特点。

首先考虑降到一维,那么降维之后数据方差为,其中u代表D维的向量,可以将D维数据映射到一个值:

 根据上面的uSu的目标函数,最大化该目标函数的话,存在一种特殊情况就是u\rightarrow \infty,因此我们需要限制u的大小。可以假设u是正交向量,满足u^{T}u=1,因此使用拉格朗日乘子法,优化目标可以变为:

根据拉格朗日解法,对u求偏导等于0,可以得到:

可知λ是S的特征值,u是对应的特征向量,u^{T}u=1,上式可以写成如下形式:

可以进一步写成:\frac{u^{T}_{1}Su_{1}}{u^{T}_{1}u_{1}}=\lambda _{1} ,因此根据Rayleigh Ratio(瑞丽比)的兴致我们知道,当\lambda _{1}, u_{1}分别是S的最大的特征值和特征向量的时候,上式最大。在sklearn上,对手写体数字进行降维显示的结果为:

3:LLE

LLE全称Locally Linear Embedding,是构造来对流形数据进行降维的方法,流形分布大致如下:

流形(manifold)的概念就是局部满足欧几里得特征,但是全局不满足的分布,比如说地球。其中针对B图这样的数据,我们希望降维之后的数据能够保持流形的相关性,比如说下面的A,B,C三点,希望降维之后,A与B之间的距离比A与C小。

LLE的出发点也很简单,就是既然局部是一个平面,那么一个点就可以根据其邻居线性求和得到。

 其中WX代表的就是邻居节点的线性求和,需要注意的一点是,这个邻居是根据KNN定义的,也就是说如果不是邻居的话,那么W对应的一项就是零。我们希望降维之后的结果依旧满足这个W所包含的邻接信息,因此:

具体的算法就是:

在sklearn上,对手写体数字进行降维显示的结果为: 

4:isoMap

MDS和PCA都是线性的降维方法,但是都很容易计算(使用特征值分解可以得到,并且是全局最优的),但是无法对流形数据很好的降维(非线性),因此isoMap是一种结合了MDS以及非线性的方法。算法如下:

首先根据数据构建一个图,然后更新得到最短距离,然后使用MDS对上述的最短距离矩阵进行分解, 在sklearn上,对手写体数字进行降维显示的结果为: 

可以看到isoMap应该是比LLE的效果好,各个类分的更开。

5:t-SNE

具体请查看t-SNE

 

 

 

 

### 数据挖掘中常用的方法 在数据挖掘领域,是一种将高数据转换为低数据的技术,同时尽可能保留原始数据中的信息[^2]。算法在数据预处理、特征提取、数据可视化以及提高机器学习算法性能等方面都有广泛的应用[^1]。以下是一些常用的数据挖掘方法: #### 1. 主成分分析(PCA) 主成分分析是一种线性技术,通过将数据投影到一个新的坐标系中来减少度,新坐标系的轴是数据方差最大的方向。PCA 的目标是最小化数据在低空间中的重构误差,并且它通常用于数据压缩可视化[^3]。 ```python from sklearn.decomposition import PCA # 创建 PCA 对象并指定后的pca = PCA(n_components=2) # 对数据进行 X_pca = pca.fit_transform(X) ``` #### 2. 线性判别分析(LDA) 线性判别分析是一种监督学习的方法,主要用于分类问题。LDA 的目标是最大化类间方差并最小化类内方差,从而提高分类性能。 ```python from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # 创建 LDA 对象 lda = LinearDiscriminantAnalysis(n_components=2) # 对数据进行 X_lda = lda.fit_transform(X, y) ``` #### 3. 多尺度分析(MDS) 多尺度分析是一种非线性技术,旨在保持样本之间的距离关系。MDS 可以用于数据可视化,尤其是在需要保持原始数据的距离特性时。 ```python from sklearn.manifold import MDS # 创建 MDS 对象 mds = MDS(n_components=2) # 对数据进行 X_mds = mds.fit_transform(X) ``` #### 4. 局部线性嵌入(LLE) 局部线性嵌入是一种非线性方法,通过保持每个样本与其邻居之间的局部线性关系来实现LLE 在处理具有复杂结构的数据时表现良好[^3]。 ```python from sklearn.manifold import LocallyLinearEmbedding # 创建 LLE 对象 lle = LocallyLinearEmbedding(n_components=2, method='standard') # 对数据进行 X_lle = lle.fit_transform(X) ``` #### 5. t-分布邻域嵌入(t-SNE) t-SNE 是一种非线性技术,特别适用于高数据的可视化。它通过优化样本在低空间中的概率分布来保持样本之间的相似性[^3]。 ```python from sklearn.manifold import TSNE # 创建 t-SNE 对象 tsne = TSNE(n_components=2) # 对数据进行 X_tsne = tsne.fit_transform(X) ``` ### 总结 以上列举了几种常见的数据挖掘方法,包括线性方法PCA LDA,以及非线性方法MDSLLE t-SNE。每种方法都有其适用场景优缺点,选择合适的方法需要根据具体任务的需求数据特性来决定[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值