作者:禅与计算机程序设计艺术
随着数据量的增加、复杂度的提升以及应用场景的变化,传统的基于人类的认知模式的数据可视化手段已经无法满足人们对高维数据的快速理解。因此,人工智能领域涌现出了基于机器学习技术的无监督降维方法,如PCA、KMeans等。这些降维方法能够自动发现高维数据中主要特征,并将数据压缩至一定的维度空间中去,从而实现数据的高效呈现。然而,这些降维方法仅仅局限于仅降低纬度,并不涉及到降低曲率、流形或者方向性,因而在分析过程中仍然存在着很大的困难。为了解决这个问题,近年来出现了一类新的机器学习技术——t-分布随机近邻嵌入(t-SNE),通过对高维数据集中的距离进行分布拟合,对其中的相似数据点之间的距离尽可能相似,反之则较远,从而将数据映射至一个二维平面上进行可视化。t-SNE作为一种无监督学习方法,可以有效地将大型、复杂、非线性的数据集转换成一张较易于理解的图形图像。在这篇文章中,我将向大家介绍t-SNE的原理、流程以及如何用Python语言实现它。
2.基本概念术语说明
一、欧式空间(Euclidean space)
欧氏空间是指由欧拉几何中的曲面或直线所张成的空间,也称笛卡尔坐标系。它是二维、三维甚至更高维的空间,通常表示为Rn\mathbb{R}^n