t-SNE与主题建模:数据可视化与文本分析的探索
1. t-SNE可视化基础
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种将高维数据表示在低维空间的技术,对于深入理解数据至关重要。不过,解读t-SNE图有时颇具挑战,因为精确的关系可能相互矛盾,导致出现误导性的结构。
1.1 困惑度(Perplexity)
困惑度指定了在计算条件概率时使用的最近邻数量。其取值对最终结果影响显著:
- 低困惑度值:数据的局部变化占主导,因为计算中使用的样本数量较少。
- 高困惑度值:考虑更多的全局变化,因为计算中使用了更多的样本。
通常,尝试一系列不同的困惑度值来研究其影响是很有价值的,5到50之间的值往往效果较好。
1.2 练习25:t-SNE MNIST与困惑度
以下是具体操作步骤:
1. 导入必要的库:
import pickle
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
- 加载MNIST数据集:
with open('mnist.pkl', 'rb') as f:
mnist = p
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



