【第二章:机器学习与神经网络概述】02.降维算法理论与实践-(4)t-SNE（t-Distributed Stochastic Neighbor Embedding）算法

IT古董

于 2025-06-20 16:17:34 发布

阅读量263

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人工智能课程文章标签：机器学习神经网络算法

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/148794870

人工智能课程专栏收录该内容

23 篇文章

订阅专栏

第二章: 机器学习与神经网络概述

第二部分：降维算法理论与实践

第四节：t-SNE算法

内容：高维数据可视化，参数调整与算法收敛性

一、什么是 t-SNE？

t-SNE 是一种非线性降维算法，特别适用于高维数据的可视化（如 2D/3D）。它通过建模样本之间的相似概率，在低维空间中保留高维邻近结构。

适用场景包括：

高维嵌入空间（如图像、文本、词向量）；
聚类结果的可视化；
深度学习模型中间层特征可视化。

二、算法原理概述

高维空间中

对任意两个样本 $x_i, x_j$ ，计算其条件概率 $p_{j|i}$ ，表示在高维空间中 $x_j$ 是 $x_i$ 的“邻居”的概率；
相似度基于高斯分布，考虑局部密度。

低维空间中

映射后的点为 $y_i, y_j$ ，相似度 $q_{ij}$ 使用学生 t 分布（自由度为 1）建模；
学生 t 分布具有“重尾”性质，能更好分离密集和稀疏区域。

优化目标

最小化 KL 散度：

$KL(P \| Q) = \sum_{i \ne j} p_{ij} \log \left( \frac{p_{ij}}{q_{ij}} \right)$

通过梯度下降不断调整低维表示，使 $q_{ij}$ 拟合 $p_{ij}$ 。

三、核心参数

参数	含义
`perplexity`	控制“邻居数量”，一般设为 5~50，影响局部 vs 全局关系
`learning_rate`	学习率，常设为 100~1000，太小收敛慢，太大会震荡
`n_iter`	迭代次数，至少 1000~2000
`metric`	距离度量（默认欧氏），也可选择曼哈顿/余弦等
`random_state`	保证结果可重复

四、Python 实现示例

from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

# 加载手写数字数据
digits = load_digits()
X = digits.data
y = digits.target

# t-SNE 降维
tsne = TSNE(n_components=2, perplexity=30, n_iter=1000, random_state=42)
X_tsne = tsne.fit_transform(X)

# 可视化
plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='tab10', s=10)
plt.legend(*scatter.legend_elements(), title="Digits", loc="best", fontsize=8)
plt.title("t-SNE 可视化手写数字数据")
plt.xlabel("t-SNE 1")
plt.ylabel("t-SNE 2")
plt.grid(True)
plt.tight_layout()
plt.show()