流形学习被认为属于非线性降维的一个分支。
线性降维的图例如下:
原图:
线性降维后的图:
线性的算法基本就是这个样子,可以看到线性的算法能把最重要的维度们找出来,蛋卷的形状被保全了下来, 但是对很多应用场景来说线性的算法并不可用, 因为如果原来的数据线性不可分降维了之后还是不可分。于是就需要这些 nonlinear(非线性) 的算法, 非线性算法像 LLE, Laplacian EM 都属于流形学习 (manifold learning)。
1. manifold learning基本概念
流形(manifold)是一般的几何对象的总称。比如人,有中国人、美国人等等;流形就包括各种维数的曲线曲面等。和一般的降维分析一样,流形学习把一组在高维空间中的数据在低维空间中重新表示。
和以往方法不同的是,在流形学习中有一个假设,就是所处理的数据采样于一个潜在的流形上,或是说对于这组数据存在一个潜在的流形。
不同的方法,对于流形性质的要求各不相同,这也就产生了在流形假设下的各种不同性质的假设,比如在Laplacian Eigenmaps(这是个啥?)中要假设这个流形是紧致黎曼流形(这又是个啥?)。
对于描述流形上的点,我们要用坐标,而流形上本身是没有坐标的,为了表示流形上的点,必须把流形放入外围空间(ambient space)中,那么流形上的点就可以用外围空间的坐标来表示。比如R ^ 3中的球面是个2维的曲面,因为球面上只有两个自由度,但是球面上的点一般是用外围R^ 3空间中的坐标表示的,所以我们看到的R^ 3中