1. 流形学习
作为机器学习研究的热点问题之一,流形学习是要从高维数据集中发现内在的低维流形,并基于低
维流形来实现随后的各种机器学习任务,如模式识别,聚类分析。与欧氏空间不同,流形学习主要
处理的是非欧空间里的模式识别和维数约简等问题。从宇宙空间看地球,如果不借助外界力量的
话,我们只能局限于地球的表面活动,而且地球上两点的距离并不单纯是它们对应的直线的跟离,
而是测地线距离。可以证明,我们生活的地球是一个嵌入在3维欧式空间中的维流形,也就是说,
地球表面点的位置可由两个变量来控制。
从定义我们可以看出,流形就是局部欧式的拓扑空间,欧式空间的性质只在邻域内有效。值得指出
的是,当邻域定义为整个欧氏空间时,欧氏空间本身也可以视为流形。所以,流形学习并非是一种
特殊学习方法,而是基于欧氏度量学习的一种推广,具有更强的一般性。
定义:设M是一个Hausdorff拓扑空间,若对∀p∈M,都有p的邻域U和Rm的一个开集同胚,则称M
为m维拓扑流形。
我们假设这些观测数据是由一些隐变量Y通过一个映射f:Y->X生成的,其中,
于是流形学习的任务就是通过观测数据把未知映射f和隐变量Y重建出来。由于m<n,故该问题是一
个病态问题,不存在唯一解,因此研究人员提出了各种各样的流形学习算法,它们试图通过添加某
些特定约束用以恢复流形的内在结构。
总体来说,流形学习兴起来源于2000年在《科学》杂志上的两篇关于流形学习的文章,其中一篇
提出了一个叫ISOMAP的方法,该方法把传统的MDS算法扩展到非线性流形上,通过对中心化的测
地线距离矩阵进行特征值分解来保持流形上的整体拓扑结构。而另一篇文章提出厂局部线性嵌入
(Local Linear Embedding (LLE))算法,该算法假设高维数据和低维数据的局部拓扑结构关系保持
不变,即邻域关系不变