机器学习笔记之——降维（一）MDS

最新推荐文章于 2025-10-20 14:49:49 发布

原创最新推荐文章于 2025-10-20 14:49:49 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #降维

机器学习专栏收录该内容

11 篇文章

订阅专栏

MDS（Multiple Dimensional Scaling）

关键思想：降维前后两点距离不变

假设 m 个 d 维样本在原始空间的距离矩阵为 $D∈Rm×mD\in \mathbb{R}^{m\times m}$ , 降维后的样本矩阵 $Z∈Rd′×mZ\in \mathbb{R}^{d'\times m}$ , 其中 $d′≪dd'\ll d$ , 每一列 $z_i$ 表示一个降维后的样本。

令 $B=ZTZ∈Rm×mB=Z^TZ\in \mathbb{R^{m\times m}}$ , $B$ 是降维后的内积矩阵， $B_{ij}=z_i^Tz_j$ ，我们要求降维之后任意两点之间的距离仍然和原始空间一样，则
$(1)Dij2=∥zi−zj∥2=∥zi∥2+∥zj∥2−2ziTzj=Bii+Bjj−2Bij\begin{aligned} D_{ij}^2 = \left \| z_i - z_j\right \|^2 & =\left \| z_i \right \|^2 + \left \| z_j \right \|^2-2z_i^Tz_j \\ & = B_{ii}+B_{jj}-2B_{ij} \end{aligned} \tag{1}$

为了方便，假设降维后的样本被中心化，即 $∑i=1mzi=0\sum_{i=1}^mz_i=0$ ，则 $B$ 矩阵的行与列之和都为 0，比如第 i 行之和，以及第j列的和分别为：
$∑j=1mBij=∑j=1mziTzj=ziT∑j=1mzj=ziT⋅0=0\sum_{j=1}^mB_{ij}=\sum_{j=1}^mz_i^Tz_j=z_i^T\sum_{j=1}^mz_j=z_i^T\cdot 0=0$ $∑i=1mBij=∑i=1mziTzj=(∑i=1mzi)T⋅zj=0Tzj=0\sum_{i=1}^mB_{ij}=\sum_{i=1}^mz_i^Tz_j=(\sum_{i=1}^mz_i)^T\cdot z_j=0^Tz_j=0$

利用公式(1)，可求矩阵 D 的第 j 列的平方和为：
$(2)∑i=1mDij2=∑i=1m(Bii+Bjj−2Bij)=∑i=1mBii+∑i=1mBjj−2∑i=1mBij=tr(B)+mBjj\begin{aligned} \sum_{i=1}^m D_{ij}^2 & = \sum_{i=1}^m (B_{ii}+B_{jj}-2B_{ij}) \\ & = \sum_{i=1}^mB_{ii}+\sum_{i=1}^mB_{jj}-2\sum_{i=1}^mB_{ij} \\ & = tr(B)+ mB_{jj} \\ \end{aligned} \tag{2}$

同理，矩阵 D 的第 i 行的平方和为：
$(3)∑j=1mDij2=∑j=1m(Bii+Bjj−2Bij)=∑j=1mBii+∑j=1mBjj−2∑j=1mBij=mBii+tr(B)\begin{aligned} \sum_{j=1}^m D_{ij}^2 & = \sum_{j=1}^m (B_{ii}+B_{jj}-2B_{ij}) \\ & = \sum_{j=1}^mB_{ii}+\sum_{j=1}^mB_{jj}-2\sum_{j=1}^mB_{ij} \\ & = mB_{ii}+tr(B) \end{aligned} \tag{3}$

矩阵 D 所有元素平方和为：
$(4)∑i=1m∑j=1mDij2=∑i=1m(mBii+tr(B))=m∑i=1mBii+∑i=1mtr(B)=m⋅tr(B)+m⋅tr(B)=2m⋅tr(B)\begin{aligned} \sum_{i=1}^m \sum_{j=1}^m D_{ij}^2 & = \sum_{i=1}^m(mB_{ii}+tr(B)) \\ & = m\sum_{i=1}^mB_{ii} +\sum_{i=1}^mtr(B) \\ & = m\cdot tr(B) + m\cdot tr(B) \\ & = 2m\cdot tr(B) \end{aligned} \tag{4}$

令 $avg(Drow_i2)avg(D^2_{row\_i})$ 表示 D 的第 i 行的平方和的平均值。即 $avg(Drow_i2)=1/m∑j=1mDij2avg(D^2_{row\_i})=1/m\sum_{j=1}^m D_{ij}^2$ , 同理，令 $avg(Dcol_j2)avg(D^2_{col\_j})$ 表示 D 的第 j 列的平方和的平均值，令 $avg(D^2)$ 表示 D 的所有元素平方和的平均值，则由公式 (4) 分别可得：
$tr(B)=∑i=1m∑j=1mDij22m=m2⋅∑i=1m∑j=1mDij2m2=m2avg(D2)tr(B)=\frac{\sum_{i=1}^m \sum_{j=1}^m D_{ij}^2}{2m}=\frac{m}{2}\cdot \frac{\sum_{i=1}^m \sum_{j=1}^m D_{ij}^2}{m^2} =\frac{m}{2}avg(D^2)$
由上式和公式(2), (3) 分别可得：
$Bii=∑j=1mDij2−tr(B)m=∑j=1mDij2m−tr(B)m=avg(Drow_i2)−tr(B)m=avg(Drow_i2)−12avg(D2) B_{ii}= \frac{\sum_{j=1}^m D_{ij}^2-tr(B)}{m}=\frac{\sum_{j=1}^m D_{ij}^2}{m}-\frac{tr(B)}{m}=avg(D^2_{row\_i})-\frac{tr(B)}{m}=avg(D^2_{row\_i})-\frac{1}{2}avg(D^2)$ $Bjj=∑i=1mDij2−tr(B)m=∑i=1mDij2m−tr(B)m=avg(Dcol_j2)−tr(B)m=avg(Dcol_j2)−12avg(D2) B_{jj}= \frac{\sum_{i=1}^m D_{ij}^2-tr(B)}{m}=\frac{\sum_{i=1}^m D_{ij}^2}{m}-\frac{tr(B)}{m}=avg(D^2_{col\_j})-\frac{tr(B)}{m}=avg(D^2_{col\_j})-\frac{1}{2}avg(D^2)$
最后，根据公式(1)和上述两个式子，可以得出 $B_{ij}$ 的计算公式：
$(5)Bij=Bii+Bjj−Dij22=avg(Drow_i2)−12avg(D2)+avg(Dcol_i2)−12avg(D2)−Dij22=avg(Drow_i2)+avg(Dcol_j2)−avg(D2)−Dij22\begin{aligned} B_{ij} & =\frac{B_{ii}+B_{jj}-D_{ij}^2}{2} \\ & =\frac{avg(D^2_{row\_i})-\frac{1}{2}avg(D^2)+avg(D^2_{col\_i})-\frac{1}{2}avg(D^2)-D_{ij}^2}{2} \\ & = \frac{avg(D^2_{row\_i})+avg(D^2_{col\_j})-avg(D^2)-D_{ij}^2}{2} \end{aligned} \tag{5}$
经过上述一系列的计算，我们便可以在已知样本在原始空间的距离信息(D矩阵)的情况下，由公式(5)计算得到降维之后的内积矩阵 $B=Z^TZ$ 。由公式(1)我们可以知道，只要内积矩阵 B 一确定，任意两点之间的距离 $∥zi−zj∥2\left \| z_i - z_j\right \|^2$ 也就确定了。现在我们只要找到一个矩阵 $Z$ ，使得其内积矩阵为 $B$ , 即 $Z^TZ=B$ , 我们就可以保证其距离 $∥zi−zj∥2\left \| z_i - z_j\right \|^2$ 是等于 $D_{ij}^2$ 的。

现在问题是如何找到满足 $Z^TZ=B$ 的 $Z$ ，只要利用特征值分解就能简单地做到。对矩阵 $B$ 进行特征值分解，有 $B=VΛVTB=V\Lambda V^T$ ，其中 $Λ\Lambda$ 是特征值从大到小排列组成的对角矩阵， $V$ 是特征向量矩阵。
$(6)B=VΛVT=[v1⋯vm][λ1⋯0⋮⋱⋮0⋯λm][v1T⋮vmT]=λ1v1v1T+λ2v2v2T+⋯+λmvmvmTB=V\Lambda V^T= \begin{bmatrix}v_1 \cdots v_m\end{bmatrix} \begin{bmatrix} \lambda_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_m \end{bmatrix} \begin{bmatrix} v_1^T \\ \vdots \\ v_m^T \end{bmatrix} = \lambda_1v_1v_1^T + \lambda_2v_2v_2^T+ \cdots + \lambda_mv_mv_m^T \tag{6}$

从上式可以看出，若某个特征值 $λi\lambda_i$ 为0，则其对应的项 $λiviviT\lambda_iv_iv_i^T$ 也为 0，去掉这些项之后和仍然不变。假设 $Λ\Lambda$ 中有 $k$ 个非零的特征值， $Λ∗=diag(λ1,λ2,...,λk)\Lambda_*=diag(\lambda_1,\lambda_2,...,\lambda_k)$ ， $V_*$ 表示对应的特征向量矩阵，则 $B=V∗Λ∗V∗TB=V_*\Lambda_* V_*^T$ , 可以得出 $Z$ 为：
$Z=Λ∗1/2V∗TZ=\Lambda_*^{1/2}V_*^T$ 可以很简单地验证， $ZTZ=(Λ∗1/2V∗T)TΛ∗1/2V∗T=V∗Λ∗1/2Λ∗1/2V∗T=V∗Λ∗V∗T=BZ^TZ=(\Lambda_*^{1/2}V_*^T)^T\Lambda_*^{1/2}V_*^T=V_*\Lambda_*^{1/2}\Lambda_*^{1/2}V_*^T=V_*\Lambda_*V_*^T=B$ , 至此，我们就找到了满足条件的 $Z$ 。这样得到的向量 $zi∈Rkz_i \in \mathbb{R}^k$ 是 k 维的，有时候 k 还是很大。在实际中，为了有效地降维，不要求降维前后距离严格相等，只要距离大致接近即可。因此可以只取 $d^{'}$ 个最大的特征值，相当于在公式(6)中只取前面 $d^{'}$ 个项，将后面较小的项舍弃，其中 $\ll d$ 。这样得到的 $Z^TZ$ 和 $B$ 虽然不能严格相等，但是差距不大，也就意味着距离与原空间也比较接近。
令 $Λ~=diag(λ1,λ2,...,λd′)\tilde{\Lambda}=diag(\lambda_1,\lambda_2,...,\lambda_{d'})$ , $V~\tilde{V}$ 表示对应的特征向量矩阵，则
$\tilde{\Lambda}^{1/2}\tilde{V}^T \tag{7}$
这得到的便是最终的结果， $zi,⋯ ,zm∈Rd′z_i, \cdots , z_m \in \mathbb{R}^{d'}$ 是降维后的向量。

具体算法过程如下：

输入：距离矩阵 D, 降维后的维度 d'
过程：
    1. 根据公式(5)计算出内积矩阵 B
    2. 对矩阵 B 做特征值分解
    3. 取 B 最大的 d' 个特征值及特征向量，按公式(7)计算出 Z
输出：Z, Z 的每一列为样本降维后的结果