LPP 和 Kernel LPP

不会声调的博er

已于 2023-05-18 10:22:29 修改

阅读量663

点赞数

文章标签：机器学习算法人工智能

于 2023-05-18 10:19:40 首次发布

本文链接：https://blog.youkuaiyun.com/wagnbo/article/details/130733771

版权

无监督度量学习的降维讲义:LPP

Lecture notes in dimensionality reduction for unsupervised metric learning: LPP
- LECTURE 6: LOCALITY PRESERVING PROJECTIONS AND KERNEL LPP
A. Kernel LPP

Lecture notes in dimensionality reduction for unsupervised metric learning: LPP

December 2020
DOI:10.13140/RG.2.2.27051.46885

LECTURE 6: LOCALITY PRESERVING PROJECTIONS AND KERNEL LPP

非线性降维技术（如 $I SOM A P 、 LL E$ 和 $L a pl a c ian e i g e nma p s$ ）的一个问题是这些方法仅在训练数据点上定义，不清楚如何评估新测试点的映射。 $L oc a l i t y P reser v in g P ro j ec t i o n$ （ $L PP$ ）算法的主要动机是产生一种方法，可以简单地应用于任何新测试数据点以定位它在降维表示空间中的位置。 $L PP$ 的基本思想是提供非线性 $L a pl a c ian E i g e nma p s$ 方法的线性近似。与 $L a pl a c ian E i g e nma p s$ 方法相似，我们寻求一个平滑映射，保持局部性，即图形中的接近必须意味着在线上的接近。我们在之前的章节中已经展示了，如果最小化以下准则，则映射 $\vec y = [y_1，y_2，...，y_n]$ 在这个意义上是最优的。
${\vec y^T}L\vec y = {1 \over 2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{w_{ij}}{{({y_i} - {y_j})}^2}} } \tag{1}$

其中 $L$ 是由 $m \times n$ 数据矩阵 $X=[\vec x_1，\vec x_2，...，\vec x_n]$ 引出的 $K NN$ 图的拉普拉斯矩阵。

在 $L PP$ 中，假设 $\vec x_i∈R^m$ 和 $y_i∈R$ 之间的关系是线性的，即 $y_i=\vec a^T~\vec x_i$ ，其中 $\vec a∈R^m$ 是一个列向量。因此，目标函数可以表示为：

$\begin{align*} {{\vec y}^T}L\vec y &= {1 \over 2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{w_{ij}}{{({{\vec a}^T}{y_i} - {{\vec a}^T}{y_j})}^2}} } \\ &= {1 \over 2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{w_{ij}}\left[ {{{\vec a}^T}{{\vec x}_i}\vec x_i^T\vec a - 2{{\vec a}^T}{{\vec x}_i}\vec x_j^T\vec a + {{\vec a}^T}{{\vec x}_j}\vec x_j^T\vec a} \right]} } \\ & = {1 \over 2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {2{w_{ij}}{{\vec a}^T}{{\vec x}_i}\vec x_i^T\vec a - {1 \over 2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {2{w_{ij}}{{\vec a}^T}{{\vec x}_i}\vec x_j^T\vec a} } } }\\ & = \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{w_{ij}}{{\vec a}^T}{{\vec x}_i}\vec x_i^T\vec a - \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{w_{ij}}{{\vec a}^T}{{\vec x}_i}\vec x_j^T\vec a} } } } \end{align*} \tag{2}$
因为 $d_i=\sum ^n_{j= 1}w_{ij}$ ，我们有:

${{\vec y}^T}L{y^T} = \sum\limits_{i = 1}^n {{{\vec a}^T}{{\vec x}_i}{d_i}\vec x_i^T\vec a} - \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{{\vec a}^T}{{\vec x}_i}{w_{ij}}\vec x_j^T\vec a} } \tag{3}$

注意，我们可以使用矩阵-向量表示法重写这个方程:
${{\vec y}^T}L{y^T} = {{\vec a}^T}XD{X^T}\vec a - {{\vec a}^T}XW{X^T}\vec a \tag{4}$

其中， $X$ 是 $m \times n$ 的数据矩阵， $D$ 是 $n \times n$ 的度数对角矩阵， $W$ 是 $n \times n$ 的权重矩阵。已知 $L = D - W$ ，我们最终得到：

${{\vec y}^T}L{y^T} = {{\vec a}^T}X(D - W){X^T}\vec a = {{\vec a}^T}XL{X^T}\vec a \tag{5}$

因此，我们需要解决以下受约束的最小化问题：
$\mathop {\arg \min }\limits_{\vec a} {{\vec a}^T}XD{X^T}\vec a\;subject\;to\;{{\vec a}^T}XW{X^T}\vec a = 1 \tag{6}$

其中，约束条件是一般形式的，用于表示向量 $\vec a$ 的范数为常数。拉格朗日函数如下所示：
$L({{\vec a}^T},\lambda ) = {{\vec a}^T}XL{X^T}\vec a - \lambda ({{\vec a}^T}XD{X^T}\vec a - 1) \tag{7}$

对 $\vec a$ 求导并令结果为零，得到：
${\partial \over {\partial \vec a}}L({{\vec a}^T},\lambda ) = XL{X^T}\vec a - \lambda XD{X^T}\vec a = 0 \tag{8}$
因此，我们有一个广义特征向量问题:
$XL{X^T}\vec a = \lambda XD{X^T}\vec a \tag{9}$
${(XD{X^T})^{ - 1}}(XL{X^T})\vec a = \lambda \vec a \tag{10}$

说明最小化目标函数，我们应该选择向量 $a$ 作为矩阵 $XDX ^T)^{ - 1}X LX ^T$ 的最小特征向量。该问题的多元版本考虑一个 $m \times d$ 矩阵 $A$ ，其中每列 $\vec a_j$ 表示数据将被投影到的方向：

${(XD{X^T})^{ - 1}}(XL{X^T})A = \lambda A \tag{11}$

在这种情况下，我们应该选择组成A的列是与 $XDX^T)^{−1}XLX^T$ 的 $d$ 个最小特征值相关的特征向量。算法1总结了 $L PP$ 方法用于降维的步骤。请注意，变换矩阵 $A$ 具有 $m$ 行和 $d$ 列，输出矩阵 $Y$ 具有 $d$ 行和 $n$ 列，这意味着每个列向量 $\vec y_j$ （其中 $j = 1, 2, ..., n$ ）存储经过降维后的点的坐标。
在这里插入图片描述

A. Kernel LPP

由于 $L PP$ 是拉普拉斯特征映射算法的线性逼近，我们可以通过核方法使其非线性化。考虑一个非线性映射 $\phi :R^m→R^M$ ，其中 $M > m$ ，设 $\phi(X)$ 表示 $H i l b er t$ 空间 $R^M$ 中的数据矩阵，即 $\phi (X) =[\vec x_1， \vec x_2，…, \vec x_n)$ 。则 $H i l b er t$ 空间中的特征向量问题可表示为 $^1$ :
$\phi (X)L\phi {(X)^T}\vec v = \lambda \phi (X)D\phi {(X)^T}\vec v \tag{17}$
这就引出了以下广义特征向量问题:
${\left( {\phi (X)D\phi {{(X)}^T}} \right)^{ - 1}}\phi (X)L\phi {(X)^T}\vec v = \lambda \vec v \tag{18}$
为了将 $L PP$ 推广到非线性情况，问题必须用内积的形式来表达，因为通过核技巧我们可以得到以下关系:
$K({x_i},{x_j}) = \phi {({x_i})^T}\phi ({x_j}) \tag{19}$
就像我们之前在?? ?，式(18)中的特征向量可以表示为 $\phi (\vec x_1)， \phi (\vec x_2)，…， \phi \vec x_n)$ ，即:

$\vec v = \sum\limits_{i = 1}^n {{\alpha _i}} \phi ({{\vec x}_i}) = \phi (X)\vec \alpha \tag{20}$

式中 $\vec α = [α_1， α_2，…α_n]^T∈R^n$ 。因此，式(17)可表示为

$\phi (X)L\phi {(X)^T}\phi (X)\vec \alpha = \lambda \phi (X)D\phi {(X)^T}\phi (X)\vec \alpha \tag{21}$

左乘 $\phi(X)^T$ 得到:

$\phi {(X)^T}\phi (X)L\phi {(X)^T}\phi (X)\vec \alpha = \lambda \phi {(X)^T}\phi (X)D\phi {(X)^T}\phi (X)\vec \alpha \tag{22}$

使用内核技巧，我们可以这样写

$KLK\vec \alpha = \lambda KDK\vec \alpha \tag{23}$
最后我们得出:

${\left( {KDK} \right)^{ - 1}}(KLK)\vec \alpha = \lambda \vec \alpha \tag{24}$

根据上述说明，我们应该选择 $KDK)^{-1}(KLK)$ 的 $d$ 个最小特征向量作为 $\vecα_1, \vecα_2, ..., \vecα_d$ 。对于测试集中的新向量 $\vec x$ ，它在 $\vec v_k$ $(k = 1, 2, ..., d)$ 特征向量上的投影可以通过以下公式计算：

$\vec v_k^T\phi (\vec x) = \sum\limits_{i = 1}^n {{\alpha _k}(i)} \phi {({{\vec x}_i})^T}\phi (\vec x) = \sum\limits_{i = 1}^n {{\alpha _k}(i)} \phi {(\vec x)^T}\phi ({{\vec x}_i}) = \sum\limits_{i = 1}^n {{\alpha _k}(i)} K(\vec x,{{\vec x}_i})\tag{25}$
其中 $α_k(i)$ 是向量 $\vec α_k$ 的第 $i$ 个元素

1X. He and P. Niyogi, “Locality preserving projections,” in Advances in Neural Information ProcessingSystems 16, edited by S. Thrun, L. K. Saul, and B. Sch¨olkopf (MIT Press, 2004) pp. 153–160.