13、t-SNE与主题建模:数据可视化与文本分析的探索

t-SNE与主题建模:数据可视化与文本分析的探索

1. t-SNE可视化基础

t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种将高维数据表示在低维空间的技术,对于深入理解数据至关重要。不过,解读t-SNE图有时颇具挑战,因为精确的关系可能相互矛盾,导致出现误导性的结构。

1.1 困惑度(Perplexity)

困惑度指定了在计算条件概率时使用的最近邻数量。其取值对最终结果影响显著:
- 低困惑度值:数据的局部变化占主导,因为计算中使用的样本数量较少。
- 高困惑度值:考虑更多的全局变化,因为计算中使用了更多的样本。

通常,尝试一系列不同的困惑度值来研究其影响是很有价值的,5到50之间的值往往效果较好。

1.2 练习25:t-SNE MNIST与困惑度

以下是具体操作步骤:
1. 导入必要的库:

import pickle
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
  1. 加载MNIST数据集:
with open('mnist.pkl', 'rb') as f:
    mnist = p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值