t-SNE详解带代码

系列博客目录



t-SNE(t-distributed Stochastic Neighbor Embedding)是一种用于数据降维和可视化的非线性技术,特别适合于高维数据。它被广泛用于将复杂的高维数据映射到二维或三维空间,以便于可视化和观察数据的分布、聚类等特征。t-SNE 通过保持数据点之间的局部邻近关系,将相似的样本放在较近的位置,方便我们观察数据的结构。

t-SNE 的工作原理

  1. 相似性测量:t-SNE 首先在高维空间中计算数据点之间的相似性。它将每个点的相似性定义为在某个范围内邻居点的概率分布,即相似的点有更高的概率值。

  2. 低维嵌入:t-SNE 将高维数据映射到低维空间,同时在低维空间中保留原始空间的相似性。使用学生 t 分布代替高斯分布来测量低维空间中的相似性,因为 t 分布有较重的尾部,更适合维持高维数据的局部结构。

  3. 优化:t-SNE 通过迭代优化,使得低维空间中的相似性分布与高维空间中的分布尽可能相似,最终将数据点映射到二维或三维平面上,使相似的点聚集在一起,不相似的点分开。

t-SNE 的应用

t-SNE 常用于以下场景:

  • 聚类可视化:观察数据集中样本的自然聚类,常用于图像、文本、基因数据等高维数据集。
  • 降维前的探索:在应用其他降维技术(如 PCA)之前,使用 t-SNE 观察数据的模式。
  • 异常检测:通过低维可视化发现数据中的异常点。

t-SNE 的优缺点

优点

  • 非常适合高维数据的可视化,尤其在维数较高的情况下,效果优于传统的线性降维方法(如 PCA)。
  • 能很好地捕捉数据的局部结构,便于观察样本之间的相似性。

缺点

  • 计算量大,数据集较大时耗时较长。
  • 参数较多(如学习率、迭代次数、近邻范围等),需要调优。
  • t-SNE 主要关注局部结构,低维空间中的全局结构可能难以解
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值