t-SNE(t-分布随机邻域嵌入)
t-SNE(t-distributed Stochastic Neighbor Embedding)是一种用于降维的非线性技术,常用于高维数据的可视化。它特别适合展示高维数据在二维或三维空间中的分布结构,同时能够很好地保留局部邻域关系。
1. t-SNE 的核心思想
t-SNE 的目标是将高维数据嵌入到低维空间,同时尽可能保持高维空间中点与点之间的相对距离(特别是局部邻域的结构)。它通过以下方式实现:
- 邻域概率建模:在高维空间中定义相邻点的概率分布,点越接近,概率越高。
- 低维空间分布:在低维空间中构造一个相似的概率分布,使得该分布与高维分布尽可能接近。
- 优化目标:通过最小化两种分布之间的差异(通常使用 Kullback-Leibler (KL) 散度),得到优化的嵌入结果。
2. t-SNE 的工作流程
步骤 1:高维数据的相似性建模
对于数据点 和
,计算高维空间中点之间的相似度,定义为条件概率: