数据降维与嵌入技术:非线性投影与多维缩放
1. 非线性投影方法概述
在数据处理中,降维是一个重要的步骤。之前提到的降维方法多基于数据空间的线性变换,即通过线性变换将数据投影到新的基上,使数据的变异性尽可能集中在较少的维度上。而本节将探讨非线性投影在降维中的应用。
与线性投影不同,非线性投影试图构建低维嵌入,尽可能保留给定数据集合的结构。可以将线性投影想象成数据在低维空间上的“影子”,而非线性投影更像是“扭曲的影子”,旨在在降维空间中尽可能保留高维空间中数据集的原始“形状”。
下面通过一个立方体投影到二维空间的例子来说明线性投影和非线性投影的区别:
从图中乍一看,线性投影似乎比非线性投影更可靠,因为在线性投影中仍能区分立方体的面,而非线性投影中立方体的面已完全扭曲。但实际上这种看法是错误的,它基于我们对投影如影子的自然直觉,而忽略了降维空间表示的一个重要且理想的属性。仔细观察图的右侧会发现,非线性投影成功地使原立方体中相对顶点的点对在投影后保持较远的距离,而线性投影则未能做到这一点。例如,在线性投影中,与点 D 最近的点是 1 和 4,虽然 4 作为 D 的相邻顶点靠近 D 是合理的,但 1 作为 D 的相对顶点应该是最远的点。而非线性投影中,1 确实是离 D 最远的点,所有相对顶点对都是如此。这种非线性投影方法在降维空间中更好地保留数据结构的内在能力,使其在数据挖掘和文本挖掘的多个应用中极具吸引力和实用性。
2. 多维缩放(MDS)
我们将重点关注一种特定的非线性投影方法——多维缩放(MDS)。MDS 最初被设计为一种可视化技术,其主要目标是为
非线性投影与多维缩放技术
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



