多维度缩放——MDS

最新推荐文章于 2024-05-30 12:50:27 发布

爱学习的程序员

最新推荐文章于 2024-05-30 12:50:27 发布

阅读量785

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签：机器学习降维多维度缩放维度约简

本文链接：https://blog.youkuaiyun.com/csdn0123zl/article/details/87098503

算法同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习

13 篇文章

订阅专栏

本文介绍了一种经典的降维算法——多维度缩放(MDS)，该算法通过保持降维前后样本间的欧式距离不变，实现了从高维空间到低维空间的有效转换。文章详细阐述了MDS算法的数学推导过程，包括如何通过距离矩阵求取内积矩阵，以及如何利用特征值分解获取降维后的样本表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们知道，缓解“维度灾难”的一个重要方法就是降维，即通过某种数学变换将原始高维属性空间转变为一个低维空间。而多维度缩放，就是其中的一个经典算法。

简介

多维度缩放，英文全称为Multiple Dimension Scaling，简称为MDS。其基本想法是: 降维后的低维空间 $d′d^{'}$ 的欧式距离等于原始空间 $d$ 的欧式距离。然而，它又是如何实现的呢？

数学推导

假定 $m$ 个样本在原始空间的距离矩阵为 $\in \mathbb{R}^{m \times m}$ ，其第 $i$ 行 $j$ 列的元素 $d_{ij}$ 为样本 $xi\mathbf{x}_i$ 和 $xj\mathbf{x}_j$ 的距离。我们的目标是获得样本在 $d′d^{'}$ 维空间的表示 $\in \mathbb{R}^{d^{'} \times m}, d^{'} \le d$ ，且任意两个样本在 $d′d^{'}$ 维空间的欧式距离等于原始空间中的距离，即 $∣∣zi−zj∣∣=dij||\mathbf{z}_i - \mathbf{z}_j|| = d_{ij}$ 。是不是很神奇？！

令 $Z^{T}Z \in \mathbb{R}^{m \times m}$ ，其中 $B$ 为降维后样本的内积矩阵， $bij=zizjb_{ij} = \mathbf{z}_i\mathbf{z}_j$ ，有

$\begin{aligned} d_{ij}^{2} &= ||\mathbf{z}_i||^{2} + ||\mathbf{z}_j||^{2} - 2\mathbf{z}_i^T\mathbf{z}_j \\ &= b_{ii} + b_{jj} - 2b_{ij}\\ \end{aligned}$

此外，为便于讨论，我们令降维后的样本 $Z$ 被中心化，即 $∑i=1mzi=0\sum_{i = 1}^{m} \mathbf{z_i} = 0$ 。显然，矩阵 $B$ 的行与列之和均为零，即 $∑i=1mbij=∑j=1mbij=0\sum_{i = 1}^{m}b_{ij} = \sum_{j = 1}^{m}b_{ij} = 0$ 。因此，可有

$\begin{aligned} \sum_{i = 1}^{m} d_{ij}^{2} &= tr(B) + mb_{jj} \\ \sum_{j = 1}^{m} d_{ij}^{2} &= tr(B) + mb_{ii} \\ \sum_{i = 1}^{m}\sum_{j = 1}^{m} d_{ij}^{2} &= 2m\ tr(B) \\ \end{aligned}$

其中， $tr(⋅)tr(\cdot)$ 表示矩阵的迹， $\sum_{i = 1}^{m}||\mathbf{z}_i||^{2}$ 。令，

$\begin{aligned} d_{i\cdot}^{2} &= \frac{1}{m}\sum_{j = 1}^{m}d_{ij}^{2} \\ d_{\cdot j}^{2} &= \frac{1}{m}\sum_{i = 1}^{m}d_{ij}^{2} \\ d_{\cdot \cdot}^{2} &= \frac{1}{m^2}\sum_{i = 1}^{m}\sum_{j = 1}^{m}d_{ij}^{2} \\ \end{aligned}$

因此，综合上式，可得，

$bij=−12(dij2−di⋅2−dj⋅2+d⋅⋅2)b_{ij} = -\frac{1}{2}(d_{ij}^{2} - d_{i \cdot}^{2} - d_{j \cdot}^{2} + d_{\cdot \cdot}^{2})$

由此即可通过降维前后保持不变的距离矩阵 $D$ 求取内积矩阵 $B$ 。那么，我们又如何求取降维后的样本点呢？答案是特征值分解。

对矩阵 $B$ 做特征值分解，

$\Lambda V^{T}$

其中， $Λ=diag(λ1,λ2,…,λd′)\Lambda = diag(\lambda_1, \lambda_2, \dots, \lambda_{d^{'}})$ 为特征值构成的对角矩阵， $λ1≥λ2≥⋯≥λd′\lambda_1 \ge \lambda_2 \ge \dots\ge \lambda_{d^{'}}$ ， $V$ 表示特征向量矩阵。假定其中有 $d^{*}$ 个非零特征值，它们构成对角矩阵 $Λ∗=diag(λ1,λ2,…,λd∗)\Lambda_{*} = diag(\lambda_1, \lambda_2, \dots, \lambda_{d^{*}})$ ，令 $V_{*}$ 表示相应的特征向量矩阵，则 $Z$ 可表达为

$\Lambda_{*}^{\frac{1}{2}}V_{*}^{T}$

在现实生活中，为了有效降维，往往仅需降维后的距离与原始空间中的距离尽可能接近，而不必严格相等。此时，可取 $d′≪dd^{'} \ll d$ 个最大特征值构成对角矩阵 $Λ~=diag(λ1,λ2,…,λd′)\tilde{\Lambda} = diag(\lambda_1, \lambda_2, \dots, \lambda_{d^{'}})$ ，令 $V~\tilde{V}$ 表示相应的特征向量矩阵，则 $Z$ 可表达为