机器学习中的降维与异常检测及模型部署
1. t - SNE 与数据聚类
t - SNE(t - Distributed Stochastic Neighbor Embedding)是一种用于高维数据可视化的技术。以下是使用 t - SNE 对数字数据集进行处理的代码:
%matplotlib inline
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt
digits = load_digits()
tsne = TSNE(n_components=2, init='pca', learning_rate='auto', random_state=0)
tsne_digits = tsne.fit_transform(digits.data)
plt.figure(figsize=(12, 8))
plt.scatter(tsne_digits[:, 0], tsne_digits[:, 1], c=digits.target, cmap=plt.cm.get_cmap('Paired', 10))
plt.colorbar(ticks=range(10))
plt.clim(-0.5, 9.5)
t - SNE 能较好地将数字组分离成不同的聚类,表明数据中存在机器学习可利用的模式。不过,t - SNE 计算量较大,在处理大型数据集时可能耗时过长。可以采取以下策略来缓解这一问题:
- 在数据集的子集上运行 t - SNE,而非
超级会员免费看
订阅专栏 解锁全文
1274

被折叠的 条评论
为什么被折叠?



