t-SNE与主题建模:数据可视化与文本分析的深入探索
1. t-SNE可视化基础
在处理高维数据时,将其在低维空间中进行有效表示至关重要。t-SNE(t-Distributed Stochastic Neighbor Embedding)作为一种强大的工具,能够帮助我们实现这一目标。不过,解读t-SNE图并非易事,因为图中的精确关系有时相互矛盾,可能会导致误导性的结构。
1.1 困惑度(Perplexity)的影响
困惑度是t-SNE中的一个关键参数,它指定了在计算条件概率时使用的最近邻数量。选择不同的困惑度值会对最终结果产生显著影响:
- 低困惑度 :计算中使用的样本数量较少,数据的局部变化占主导地位,聚类间几乎没有空间,但聚类内部重叠较少。
- 高困惑度 :计算中使用更多样本,考虑更多全局变化,聚类间的空间会有所改善,但过高的值会导致聚类重叠。
通常,尝试5到50之间的困惑度值往往能取得较好的效果。
1.2 实验:t-SNE MNIST与困惑度
以下是使用MNIST数据集探究困惑度影响的具体步骤:
1. 导入必要的库:
import pickle
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
超级会员免费看
订阅专栏 解锁全文
634

被折叠的 条评论
为什么被折叠?



