【机器学习】关于t-sne:降维、可视化

机器学习中的高维数据需要降维和可视化,t-SNE作为一种非线性方法,尤其擅长数据可视化。尽管PCA常用,但无法处理复杂的非线性关系。t-SNE由SNE改进,解决SNE的优化问题和“crowding problem”。它通过概率分布映射实现高维到低维的转换,低维空间使用t分布。t-SNE在Python的sklearn库中易于使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于t-sne:降维、可视化

机器学习中,我们的使用的数据基本都是高维的,所以我们很难直接从数据中观察分布和特征。因此出现了很多数据降维的手段帮助我们提取特征和可视化数据。这就是流行学习方法(Manifold Learning):假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

有张图可以比较好的理解下降维的方法。
数据降维分支

PCA曾经广泛用于提取特征,由于其是线性降维,所以不能解释特征之间的复杂多项式关系,而且也已经过于古老。而上图中没有提及的t-sne属于非线性方法,是由Hinton和lvdmaaten在2008年提出的。关于降维的数据作为feature是否更优还不能确定,但是其可视化效果非常好。由于t-sne运行速度非常慢,比pca高了一个数量级,因此在可视化数据的时候一般先用pca处理,然后再用tsne处理。

t-sne是由sne发展而来,SNE是通过仿射(affinitie)变换将数据点映射到概率分布上,主要包括两个步骤:

  • SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。
  • SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似

尽管SNE提供了很好的可视化方法,但是他很难优化,而且存在”crowding problem”(拥挤问题)。后续中,Hinton等人又提出了t-SNE的方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值