13、t-SNE与主题建模:数据可视化与文本分析的深入探索

t-SNE与主题建模:数据可视化与文本分析的深入探索

1. t-SNE可视化基础

在处理高维数据时,将其在低维空间中进行有效表示至关重要。t-SNE(t-Distributed Stochastic Neighbor Embedding)作为一种强大的工具,能够帮助我们实现这一目标。不过,解读t-SNE图并非易事,因为图中的精确关系有时相互矛盾,可能会导致误导性的结构。

1.1 困惑度(Perplexity)的影响

困惑度是t-SNE中的一个关键参数,它指定了在计算条件概率时使用的最近邻数量。选择不同的困惑度值会对最终结果产生显著影响:
- 低困惑度 :计算中使用的样本数量较少,数据的局部变化占主导地位,聚类间几乎没有空间,但聚类内部重叠较少。
- 高困惑度 :计算中使用更多样本,考虑更多全局变化,聚类间的空间会有所改善,但过高的值会导致聚类重叠。

通常,尝试5到50之间的困惑度值往往能取得较好的效果。

1.2 实验:t-SNE MNIST与困惑度

以下是使用MNIST数据集探究困惑度影响的具体步骤:
1. 导入必要的库:

import pickle
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值