机器学习之：流形与降维概述

最新推荐文章于 2025-06-22 01:42:02 发布

原创

最新推荐文章于 2025-06-22 01:42:02 发布 · 4.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#manifold #knn #dimension deduction

本文概述了降维算法，包括线性降维如PCA、LDA和MDS，以及非线性降维的流形学习方法如ISOmap、LLE和LE。流形学习通过KNN图和SNE算法来处理非欧几里得空间的数据，其中SNE通过条件概率保持高维到低维空间的相似性。

流形与降维：概述

降维算法概述
- 流形学习
- 距离的定义
KNN图与流形降维
- KNN图
- SNE算法

降维算法概述

降维，顾名思义就是把数据或者特征的维度降低，一般分为线性降维和非线性降维。

线性降维有：PCA、LDA、MDS（Classical Multidimensional Scaling）
非线性降维有： ISOmap( Isometric Mapping), LLE(Locally Linear Embedding), LE(Laplacian Eigenmaps) 非线性降维算法中用到的，大多属于流行学习方法。

流形学习

关于流形学习(Manifold Learning)最形象的解释莫过于这幅图：
Swiss Roll

这幅图又被称为Swiss Roll，瑞士卷，是一种常见的卷状蛋糕，如何计算蛋糕卷起表面上两点距离，就是流行计算中要解决的一个问题。

距离的定义

在欧式几何中，我们将两点的距离定义为两点的直线距离，这个距离也是在欧式空间中A到B的最短距离。由于在瑞士卷上，从A点到B点实际上有无数中路径，那么该如何定义A和B之间的距离呢？与欧式空间中的距离定义类似，我们也可以将其简单地定义为“最短路径”。

那么这个最短距离又如何定义呢？现实生活中测量从北京到纽约的距离也是一个这样的问题。由于地球实际上是球形的，从北京的纽约的距离不是空间中这两个地点的直线距离，而是通过GIS中称为测地距离（根据球面几何，球体上任意两点的距离就是同时经过这两点的球面大圆的弧长）的度量来计算。在瑞士卷的问题中，类似地，我们也需要找到“测地距离”。

总结一下，这里提到的几个概念：

测地距离：流形上两个点之间的最短测地线的长度。
测地线：流形上两个点之间最短的曲线。
黎曼测度：黎曼流形上某一点的切空间上定义的内积的集合。
黎曼测度的性质：黎曼流形上某一点的切空间上某一切向量的范数等于这个切向量对应的测地线的长度。

KNN图与流形降维

KNN图

KNN图（k-Nearest Neighbour Graph）是对空间中的n个节点，通过某种距离度量的方式找到距离他最近的k个邻居，然后分别将这k个点连接起来，形成k条有向边。当然在实际中为了便于处理，通常是构造成无向边。这样的处理方法类似于局部微分，认为流行上每个点的邻域符合欧式空间定义。就类似于处理从北京到纽约的距离这样的问题不能用欧式几何，应该用黎曼集合，但是对于日常生活中常用的距离概念都是用欧式距离来描述一样。从直观上来讲，一个流行好比是d维的空间，在一个m维的空间中被扭曲（m>d）之后的结果，d维流形的任意点都局部同胚于（正逆映射都是光滑的一一映射）欧式空间 $R^D$ 。
KNN图就可以在计算流行上两点的距离时起到“估算”测地线的作用，用欧式距离得到一个近似，如下图所示，图中蓝色的曲线是沿着流行真实的测地线距离，红色的是在原始数据点上根据欧式距离构造KNN 图得到的近似测地线距离。
在这里插入图片描述

SNE算法

SNE（stochastic neighbor embedding）算法的基本假设和上述KNN图算法基本上是一致的，在高维空间相似的数据点，映射到低维空间距离也是相似的。但是与KNN图算法不同的是，SNE把这种距离关系转换为一种条件概率来表示相似性。
假设高维空间中的数据点服从高斯分布，那么任意两点之间的距离，例如 $X_j$ 点相距 $X_i$ 点的距离认为是：
$p_{j|i}= \frac{exp(-||X_i-X_j||^2/(2\delta_i^2)}{\sum_{k \ne i}{exp(-||X_i-X_k||^2/(2\delta_i ^2)}}$