西瓜书学习笔记——低维嵌入（公式推导+举例应用）-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_46117575/article/details/136000525

博客介绍了低维嵌入技术，它可降低高维数据维度，保留数据特征并减少复杂性，常用于可视化等领域。在k近邻学习中，高维数据会使KNN算法性能下降，低维嵌入能将高维数据映射到低维子空间，提高KNN算法性能，还给出了相关公式推导和实验分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- - 算法介绍
  - 实验分析

算法介绍

低维嵌入（Low-Dimensional Embedding）是一种降低高维数据维度的技术，目的是在保留数据特征的同时减少数据的复杂性。这种技术常用于可视化、特征学习、以及数据压缩等领域。低维嵌入的目标是将高维数据映射到一个低维空间，以便更好地理解和可视化数据。

在 $k$ 近邻学习中，随着数据维度的增加，样本之间的距离变得更加稀疏，导致KNN算法性能下降。这是因为在高维空间中，样本之间的距离变得很难定义和度量，使得KNN算法的效果变差。

通过低维嵌入技术，可以将高维数据映射到一个更低维的子空间中。这样可以在新的低维表示中更好地保留数据的结构和关系，从而提高KNN算法在原始空间中的性能。

低维嵌入示意图如下所示：
在这里插入图片描述
我们假定 $m$ 个样本在原始空间的距离矩阵为 $D\in \mathbb{R}^{m\times m}$ ，其中第 $i$ 行 $j$ 列的元素 $dist_{ij}$ 为样本 $x_i$ 到样本 $x_j$ 的距离。我们的目标是获得样本在 $d^\prime$ 维空间的表示 $Z\in \mathbb{R}^{d^\prime \times m}$ ， $d^\prime \leq d$ ，且任意两个样本在 $d^\prime$ 维空间中的欧式距离等于原始空间中的距离，即 $z_i-z_j||=dist_{ij}$ 。

令 $B=Z^TZ\in \mathbb{R}^{m\times m}$ ，其中 $B$ 是降维后样本的内积矩阵， $b_{ij}=z_i^Tz_j$ ，有：
$\begin{aligned} dist_{ij}^2&=||z_i||^2+||z_j||^2-2z_i^Tz_j\\ &=b_{ii}+b_{jj}-2b_{ij} \end{aligned} \tag{3}$

为了方便讨论，我们令降维后的样本 $Z$ 被中心化过，即 $\sum_{i=1}^mz_i=0$ ，显然矩阵 $B$ 的行和列的和都为零，即 $\sum_{i=1}^mb_{ij}=\sum_{j=1}^mb_{ij}=0$ ，故可知：
$\begin{aligned} \sum_{i=1}^mdist_{ij}^2&=\sum_{i=1}^mb_{ii}+\sum_{i=1}^mb_{jj}-2\sum_{i=1}^mb_{ij}\\ &=tr(B)+mb_{jj} \end{aligned} \tag{4}$

$\begin{aligned} \sum_{j=1}^mdist_{ij}^2&=\sum_{j=1}^mb_{ii}+\sum_{j=1}^mb_{jj}-2\sum_{j=1}^mb_{ij}\\ &=mb_{ii}+tr(B) \end{aligned} \tag{5}$

$\begin{aligned} \sum_{i=1}^m\sum_{j=1}^mdist_{ij}^2&=\sum_{i=1}^m\sum_{j=1}^mb_{ii}+\sum_{i=1}^m\sum_{j=1}^mb_{jj}-2\sum_{i=1}^m\sum_{j=1}^mb_{ij}\\ &=2m\cdot tr(B) \end{aligned} \tag{6}$

其中 $tr(B)=\sum_{i=1}^m b_{ii}=\sum_{i=1}^m z_i^Tz_i=\sum_{i=1}^m||z_i||^2$ ，令：

$dist_{i\cdot}^2=\frac{1}{m}\sum_{j=1}^mdist_{ij}^2 \tag{7}$

$dist_{\cdot j}^2=\frac{1}{m}\sum_{i=1}^mdist_{ij}^2 \tag{8}$
$dist_{\cdot \cdot}^2=\frac{1}{m^2}\sum_{i=1}^m\sum_{j=1}^mdist_{ij}^2 \tag{9}$

$dist_{i\cdot}^2$ 表示样本 $i$ 到所有其他样本的平均距离平方。这个值反映了样本 $i$ 与其他样本的整体相似性。
$dist_{\cdot j}^2$ 表示所有样本到样本 $j$ 的平均距离平方。这个值反映了所有样本到某个特定样本 $j$ 的整体相似性。
$dist_{\cdot \cdot}^2$ 表示所有样本之间的平均距离平方。这个值反映了整个样本集合的相似性。

由式（3）可知：
$b_{ij}=-\frac{1}{2}(dist_{ij}^2-b_{ii}-b_{jj}) \tag{10}$

将式（6）带入式（9）中可知：
$\begin{aligned} dist_{\cdot \cdot}^2&=\frac{1}{m^2}\cdot 2m\cdot tr(B)\\ &=\frac{2}{m}\cdot tr(B) \end{aligned} \tag{11}$

故有：
$tr(B)=\frac{m}{2}dist_{\cdot \cdot}^2\tag{12}$

将式（4）带入式（8）中有：
$\begin{aligned} dist_{\cdot j}^2&=\frac{1}{m}(tr(B)+mb_{jj}) \end{aligned} \tag{13}$

将式（12）带入式（13）中有：
$\begin{aligned} dist_{\cdot j}^2&=\frac{1}{m}(tr(B)+mb_{jj})\\ &=\frac{1}{m}(\frac{m}{2}dist_{\cdot \cdot}^2+mb_{jj})\\ &=\frac{1}{2}dist_{\cdot \cdot}^2+b_{jj} \end{aligned} \tag{14}$

故有：
$b_{jj}=dist_{\cdot j}^2-\frac{1}{2}dist_{\cdot \cdot}^2 \tag{15}$

将式（5）带入式（7）中有：
$\begin{aligned} dist_{i\cdot}^2&=\frac{1}{m}(mb_{ii}+tr(B))\\ \end{aligned} \tag{16}$

将式（12）带入式（16）中有：
$\begin{aligned} dist_{i\cdot}^2&=\frac{1}{m}(mb_{ii}+tr(B))\\ &=\frac{1}{m}(mb_{ii}+\frac{m}{2}dist_{\cdot \cdot}^2)\\ &=b_{ii}+\frac{1}{2}dist_{\cdot \cdot}^2 \end{aligned} \tag{17}$
故有：
$b_{ii}=dist_{i\cdot}^2-\frac{1}{2}dist_{\cdot \cdot}^2 \tag{18}$

最后将式（15）和式（18）带入式（10）可得：

$b_{ij}=-\frac{1}{2}(dist_{ij}^2-dist_{i\cdot}^2-dist_{\cdot j}^2+dist_{\cdot \cdot}^2) \tag{19}$

故此时就可通过降维前后不变的距离矩阵 $D$ 来求取内积矩阵 $B$ 。

最后我们通过对矩阵 $B$ 进行特征值分解，即 $B=V\Lambda V^T$ ，其中 $\Lambda=\text{diag}(\lambda_1,\lambda_2,...,\lambda_d)$ 为特征值所构成的对角矩阵，且 $\lambda_1\geq\lambda_2\geq...\geq\lambda_d$ ， $V$ 是特征向量。

故我们假定 $B$ 有 $d^\star$ 个非零特征值，它们所构成的对角矩阵 $\Lambda_{\star}=\text{diag}(\lambda_1,\lambda_2,...,\lambda_{d^\star})$ ，其中 $V_\star$ 是特征向量。且 $B=Z^TZ=V_\star\Lambda_\star V_\star^T$ ，则 $Z$ 可表达为：

$Z=\Lambda_\star^{1/2}V_\star^T \in \mathbb{R}^{d^\star \times m} \tag{20}$

其算法流程图如下所示：
在这里插入图片描述

实验分析

数据集如下图所示：
在这里插入图片描述
读入数据集：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 读取数据集
data = pd.read_csv('data/correlated_dataset.csv')

计算距离矩阵函数：

def calculate_distance_matrix(data):
    # 计算距离矩阵
    num_samples = len(data)
    distances = np.zeros((num_samples, num_samples))

    for i in range(num_samples):
        for j in range(num_samples):
            distances[i, j] = np.linalg.norm(data[i] - data[j])

    return distances

MDS算法：

def calculate_mds_diagonal_matrix(distances, d_star):
    m = len(distances)

    # 计算降维前后不变的距离平方
    dist_i_dot_sq = np.mean(distances**2, axis=1)
    dist_dot_j_sq = np.mean(distances**2, axis=0)
    dist_dot_dot_sq = np.mean(distances**2)

    # 计算内积矩阵B
    B = -0.5 * (distances**2 - dist_i_dot_sq.reshape(-1, 1) - dist_dot_j_sq + dist_dot_dot_sq)

    # 对B进行特征值分解
    eigenvalues, eigenvectors = np.linalg.eigh(B)

    # 选择非零特征值对应的特征向量
    nonzero_eigenvalues = eigenvalues[eigenvalues > 1e-10]
    nonzero_eigenvectors = eigenvectors[:, eigenvalues > 1e-10]

    # 取前d_star个非零特征值对应的特征向量
    top_indices = np.argsort(nonzero_eigenvalues)[::-1][:d_star]
    selected_eigenvectors = nonzero_eigenvectors[:, top_indices]

    # 计算对角矩阵
    diagonal_matrix = np.diag(nonzero_eigenvalues[top_indices])

    return diagonal_matrix

定义画图函数：

def plot_diagonal_matrix(diagonal_matrix):
    plt.imshow(diagonal_matrix, cmap='viridis')

    # 在主对角线上显示数值
    for i in range(diagonal_matrix.shape[0]):
        plt.text(i, i, f'{diagonal_matrix[i, i]:.2f}', color='red', ha='center', va='center')

    plt.colorbar(label='特征值')
    plt.title('特征值构成的对角矩阵')
    plt.show()

执行MDS算法：

# 提取特征列
features = data.iloc[:, :-1].values

# 计算距离矩阵
distances = calculate_distance_matrix(features)

# 设定降维后的维度
d_star = 6

# 使用MDS算法计算特征值构成的对角矩阵
diagonal_matrix = calculate_mds_diagonal_matrix(distances, d_star)

# 绘制对角矩阵的可视化
plot_diagonal_matrix(diagonal_matrix)