【机器学习】机器学习的基本分类-无监督学习-t-SNE（t-分布随机邻域嵌入）

机器学习之 t-SNE 降维技术详解

最新推荐文章于 2025-02-10 20:14:43 发布

原创最新推荐文章于 2025-02-10 20:14:43 发布 · 2.3k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #分类 #学习 #人工智能

人工智能同时被 2 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

t-SNE（t-分布随机邻域嵌入）

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种用于降维的非线性技术，常用于高维数据的可视化。它特别适合展示高维数据在二维或三维空间中的分布结构，同时能够很好地保留局部邻域关系。

1. t-SNE 的核心思想

t-SNE 的目标是将高维数据嵌入到低维空间，同时尽可能保持高维空间中点与点之间的相对距离（特别是局部邻域的结构）。它通过以下方式实现：

邻域概率建模：在高维空间中定义相邻点的概率分布，点越接近，概率越高。
低维空间分布：在低维空间中构造一个相似的概率分布，使得该分布与高维分布尽可能接近。
优化目标：通过最小化两种分布之间的差异（通常使用 Kullback-Leibler (KL) 散度），得到优化的嵌入结果。

2. t-SNE 的工作流程

步骤 1：高维数据的相似性建模

对于数据点 $x_i$ 和 $x_j$ ，计算高维空间中点之间的相似度，定义为条件概率：

$p_{j|i} = \frac{\exp\left(-\|x_i - x_j\|^2 / 2\sigma_i^2\right)}{\sum_{k \neq i} \exp\left(-\|x_i - x_k\|^2 / 2\sigma_i^2\right)}$

$\sigma_i$ 是点 $x_i$ 的标准差（自适应调整）。
对称化处理，定义联合概率 $p_{ij}$ ：

$p_{ij} = \frac{p_{j|i} + p_{i|j}}{2N}$

其中 N 是样本总数。

步骤 2：低维空间的相似性建模

在低维空间中，使用 t-分布（自由度为1的学生 t 分布）定义点 $y_i$ 和 $y_j$ 的相似性：

$q_{ij} = \frac{\left(1 + \|y_i - y_j\|^2\right)^{-1}}{\sum_{k \neq l} \left(1 + \|y_k - y_l\|^2\right)^{-1}}$

t-分布的尾部较长，可以防止点之间距离过大时影响降维效果。

步骤 3：优化目标

通过最小化高维分布 $p_{ij}$ 和低维分布 $q_{ij}$ 之间的 Kullback-Leibler (KL) 散度：

$\text{KL}(P || Q) = \sum_{i \neq j} p_{ij} \log\left(\frac{p_{ij}}{q_{ij}}\right)$

最小化 KL 散度可以调整低维空间中的点位置，使得 $q_{ij}$ 接近 $p_{ij}$ 。

步骤 4：梯度下降

通过梯度下降优化 KL 散度，逐步调整低维空间中的点。

3. t-SNE 的优点和缺点

优点

适合非线性数据降维：相比 PCA，t-SNE 更适合揭示复杂数据的非线性结构。
良好的可视化效果：特别适用于高维数据的二维或三维可视化，能清晰显示聚类和分布。
保留局部结构：很好地保持高维空间中局部邻域的关系。

缺点

计算复杂度高：对大规模数据（样本数较多）效率较低。
难以解释全局结构：t-SNE 更关注局部结构，可能会扭曲全局分布。
超参数敏感：如 perplexity 和学习率，对最终结果影响较大，需要调试。
不可逆降维：t-SNE 是非线性降维，不能将低维结果映射回高维。

4. t-SNE 的常见超参数

Perplexity：表示每个点的邻域大小，常在 5 到 50 之间。较大的 perplexity 会关注更大的局部结构。
学习率：用于优化的步长，常设置为 200 或 N/12（N 为样本数）。
迭代次数：一般设置为 1000 次以上。

5. t-SNE 的实现（Python 示例）

以下使用 scikit-learn 库实现 t-SNE：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.manifold import TSNE

# 加载数据集
digits = load_digits()
X = digits.data
y = digits.target

# 使用 t-SNE 进行降维
tsne = TSNE(n_components=2, perplexity=30, random_state=0)
X_embedded = tsne.fit_transform(X)

# 绘制结果
plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y, cmap='Spectral', s=15)
plt.colorbar(scatter, label='Digits')
plt.title('t-SNE Visualization of Digits Dataset')
plt.xlabel('t-SNE Component 1')
plt.ylabel('t-SNE Component 2')
plt.show()

6. t-SNE 的改进方法

由于 t-SNE 的高计算复杂度，后续有一些改进版本：

Barnes-Hut t-SNE：通过快速近似方法将时间复杂度降低到 $O(N \log N)$ 。
Parametric t-SNE：结合神经网络训练，适用于大规模数据。
UMAP（Uniform Manifold Approximation and Projection）：是一种快速替代 t-SNE 的方法，在保留局部结构的同时，更能体现全局结构。