t-SNE和PCA进行数据降维和聚类的比较

最新推荐文章于 2025-02-26 20:54:40 发布

WuKai1207

最新推荐文章于 2025-02-26 20:54:40 发布

阅读量3.5k

点赞数 1

文章标签： python 机器学习人工智能

本文链接：https://blog.youkuaiyun.com/WuKai1207/article/details/126666056

版权

文章对比了PCA和t-SNE两种数据降维方法在处理mnist图像数据上的效果。PCA作为线性降维手段，保留了样本方差，但在可视化和KMeans聚类中表现一般。而t-SNE虽然计算慢且结果有随机性，但能提供更好的数据可视化分离效果，尤其适合降维到2维或3维。在无监督学习中，t-SNE可能带来意想不到的聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PCA（主成分分析）通过对原始数据特征的线性组合，在尽可能保留样本之间差异性（样本方差）的情况下，形成新的特征，是最常见的数据降维手段。

t-SNE（t-distributed stochastic neighbor embedding）是一种非线性的数据降维方法，它将数据点之间的空间距离转化为相似度的概率分布（高维空间中使用高斯分布，低维空间中使用t-分布），通过最小化高维空间和低维空间概率分布的KL散度，获得数据在低维空间中的近似。通常用于高维数据的可视化。

本文分别使用t-SNE和PCA对mnist图像数据进行降维处理，再对降维后的数据进行KMeans聚类，对比其降维效果的差异。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

data, labels = load_digits(return_X_y=True)    # 加载mnist数据
(n_samples, n_features), n_digits = data.shape, np.unique(labels).size


fig, axs = plt.subplots(nrows=10, ncols=10, figsize=(6, 6))
for idx, ax in enumerate(axs.ravel()):
    ax.imshow(data[idx].reshape((8, 8)), cmap=plt.cm.binary)
    ax.axis("off")
_ = fig.suptitle("A selection from the 64-dimensional digits dataset"