t-SNE:高维数据可视化的有效工具
1. 引言
在数据科学领域,处理高维数据是一项常见且具有挑战性的任务。如何将高维数据合理地表示在低维空间中,以便进行可视化和分析,是许多研究者关注的问题。随机邻域嵌入(Stochastic Neighbor Embedding,SNE)及其改进版本 t-分布随机邻域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)为解决这一问题提供了有效的方法。
2. 随机邻域嵌入(SNE)
SNE 是流形学习方法的一种,旨在将高维空间的数据描述在低维流形或有界区域内。构建 SNE 可分为以下步骤:
1. 转换为条件概率 :将高维空间中数据点之间的距离转换为条件概率。对于高维空间中的两个点,使用高斯曲线来定义一个点被选为另一个点邻居的概率,附近的点概率高,远处的点概率低。
2. 确定高斯曲线宽度 :曲线宽度控制概率选择的速率,宽曲线表示许多点距离较远,窄曲线表示点紧密聚集。
3. 计算低维空间概率 :将数据投影到低维空间后,确定相应低维数据之间的概率。
4. 最小化差异 :SNE 的目标是通过 Kullback-Leibler(KL)散度作为代价函数(C),在低维空间中定位数据,以最小化高维和低维空间中概率的差异。
在训练过程中,SNE 使用梯度下降来最小化 C,同时引入了“困惑度(perplexity)”这一额外参数。困惑度是比较中使用的有效邻居数量的选择,通常在 5 到 50 之间的值较
超级会员免费看
订阅专栏 解锁全文
1136

被折叠的 条评论
为什么被折叠?



