SVD 的理论基础

最新推荐文章于 2022-06-16 18:59:35 发布

原创最新推荐文章于 2022-06-16 18:59:35 发布 · 555 阅读

0 ·

CC 4.0 BY-SA版权

ML整理笔记专栏收录该内容

12 篇文章

订阅专栏

本文从理论基础的角度梳理了奇异值分解（SVD）的概念、特征值分解、矩阵的奇异值分解等内容，详细解释了如何通过特征向量和奇异值进行矩阵分解，并探讨了其在数据压缩、图像处理、推荐系统等领域的应用。

　　本文从理论基础的角度梳理对SVD的理解，不涉及SVD的实现算法。若有不准确的地方，请指正。转载请注明出处。

　　下面是两篇介绍SVD基础的非常不错的文章，本文的一些思路参考了它们：

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

http://www.ams.org/samplings/feature-column/fcarc-svd

一、方矩阵的特征值分解

　　对于一个 $n$ 阶非奇异方矩阵 $\mathrm A$ ，存在 $n$ 个特征值 $(\lambda_1, \lambda_2, \dots, \lambda_n)$ 。如果这些特征值互不相等，则存在 $n$ 个线性无关的特征向量 $(\boldsymbol{p_1}, \boldsymbol{p_2}, \dots, \boldsymbol{p_n})$ ，其对应关系为：

A p i = λ i p i .

$\begin{equation} \mathrm A p_i = \lambda_i \boldsymbol p_i. \label{ageineq}\end{equation}$

　　把所有这些特征向量组成一个 $n$ 阶矩阵 $\mathrm P$ ，所有这些特征值组成 $n$ 阶对角矩阵 $\Lambda$ ，即：

P Λ = (p 1, p 2, \dots, p n), = d i a g (λ 1, λ 2, \dots, λ n) .

$\begin{aligned} P & = (\boldsymbol p_1, \boldsymbol p_2, \dots, \boldsymbol p_n), \\ \Lambda & = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_n). \end{aligned}$

则这 $n$ 个特征方程 $\eqref{ageineq}$ 可以表示为：

A P = P Λ .

$\begin{aligned} \mathrm{AP} = \mathrm{P \Lambda}. \end{aligned}$

　　因为 $n$ 个特征向量 $\boldsymbol p_i$ 是线性无关的，则矩阵 $P$ 可逆。由上面的方程即可得到：

A = P Λ P - 1 .

$\begin{equation} \mathrm A = \mathrm{P \Lambda} \mathrm P^{-1}. \end{equation}$

这就是非奇异矩阵的特征值分解。也许写成分量的形式，更能体现出“分解”的含义，我们把 $\mathrm P$ 的逆矩阵写成行向量的形式 $\mathrm P^{-1} = (\boldsymbol{q}_1, \boldsymbol{q}_2, \dots, \boldsymbol{q}_n)^\mathrm T$ ，行向量 $\boldsymbol{q}_i$ 是矩阵 $\mathrm P^{-1}$ 的低 $i$ 行。这样，上面的方程可以写为：

A = \sum i = 1 n λ i p i q T i .

$\begin{eqnarray} \mathrm A = \sum_{i = 1}^{n} \lambda_i \boldsymbol{p}_i \boldsymbol{q}_i^{\mathrm T}. \end{eqnarray}$

　　这样，矩阵 $\mathrm A$ 被分解成了向量 $\boldsymbol p_i$ 与 $\boldsymbol q_i^{\mathrm T}$ 的乘积的和，对应的特征值 $\lambda_i$ 是每一项的系数。对于矩阵 $\mathrm A$ 是对称矩阵的情况，其特征向量是正交的，所以 $\mathrm P$ 是正交矩阵，有 $\mathrm P^{-1} = \mathrm P^\mathrm T$ ，这样上式中的 $\boldsymbol q_i = \boldsymbol p_i$ 。所以对称矩阵可以由它的特征向量来分解。

二、奇异值分解

　　非方阵没有特征值和特征向量，不存在上面那样的特征值分解，但是可以做类似的奇异值分解。

　　一个 $m\times n$ 阶矩阵 $A$ 可以看做对空间的一种线性变换， $\boldsymbol{Aa = b}$ ，把一个 $n$ 维空间中的向量 $A$ 变换成M维空间的向量 $\boldsymbol b$ 。从变换前后的两个空间的正交基矢可以方便看出变换的效果。变换A在某些方向上的变换最强，在另一些方向上的变换最弱，我们选择这样的方向作为基矢。后面可以看到，这些基矢正是 $A^{\mathrm T} A$ 的特征向量。

1. 奇异值与奇异向量

　　矩阵 $A^{\mathrm T} A$ 是 $n$ 阶的，记其 $n$ 个特征值（假设不相同）为 $(\sigma^2_1, \sigma^2_2, \dots, \sigma^2_n)$ 。因为 $A^{\mathrm T} A$ 是对称矩阵，假设这些特征值各不相同，则存在 $n$ 个互相正交的特征向量 $(\boldsymbol v_1, \boldsymbol v_2, \dots, \boldsymbol v_n)$ ，

(A T A) v i = σ 2 i v i .

$\begin{equation} (A^{\boldsymbol T}{A}) \boldsymbol v_i = \sigma_i^2 \boldsymbol v_i. \label{AAu2u} \end{equation}$

我们将这些特征向量取为单位长度，则它们可以当做原 $n$ 维空间中的一组正交基，满足下面的正交归一关系：

v i \cdot v j = δ i j .

$\begin{aligned} \boldsymbol v_i \cdot \boldsymbol v_j = \delta_{ij}. \end{aligned}$

　　将它们经过矩阵 $A$ 变换后在 $m$ 维像空间中对应的向量记为 $(\boldsymbol u_1, \boldsymbol u_2, \dots, \boldsymbol u_n)$ ，即

A v i = λ i u i .

$\begin{equation} \boldsymbol {A v}_i = \lambda_i \boldsymbol{u}_i. \label{Au2v} \end{equation}$

其中已经把 $n$ 个向量 $\boldsymbol u_i$ 都取为单位长度。这样， $\lambda_i$ 表示向量 $\boldsymbol v_i$ 变换后的长度， $\boldsymbol u_i$ 表示变换后的方向。下面证明向量 $\boldsymbol u_i$ 的正交特性和 $\lambda_i = \sigma_i$ ：

u i \cdot u j = 1 λ i λ j (A v i) T (A v j) = 1 λ i λ j v T i (A T A v j) = 1 λ i λ j v T i σ 2 j v j = σ 2 j λ i λ j v i \cdot v j = σ 2 j λ i λ j δ i j .

$\begin{aligned} \boldsymbol{u}_i \cdot \boldsymbol{u}_j & = \frac{1}{\lambda_i \lambda_j} (\boldsymbol{Av}_i)^\mathrm T (\boldsymbol{Av}_j) \\ & = \frac{1}{\lambda_i \lambda_j} \boldsymbol v_i^{\mathrm T} (A^{\mathrm T} \boldsymbol{Av}_j) \\ & = \frac{1}{\lambda_i \lambda_j} \boldsymbol v_i^{\mathrm T} \sigma_j^2 \boldsymbol v_j \\ & = \frac{\sigma_j^2}{\lambda_i \lambda_j} \boldsymbol v_i \cdot \boldsymbol v_j \\ & = \frac{\sigma_j^2}{\lambda_i \lambda_j} \delta_{ij}. \end{aligned}$

当 $i \neq j$ 时，上式等于0。当 $i = j$ 时，因为 $\boldsymbol u_i$ 是单位向量，所以上式等于1。这样我们同时得到：

u i \cdot u j λ i = δ i j, = σ i .

$\begin{aligned} \boldsymbol u_i \cdot \boldsymbol u_j & = \delta_{ij}, \\ \lambda_i & = \sigma_i. \end{aligned}$

可以看出，向量 $\boldsymbol u_i$ 与 $\boldsymbol v_i$ 具有相同的正交特性。

　　在方程 $\eqref{Au2v}$ 的两端同左乘 $A^{\mathrm T}$ ，利用方程 $\eqref{AAu2u}$ 容易得到下面的关系：

A T u i = σ i v i .

$\begin{aligned} A^{\mathrm T} \boldsymbol u_i = \sigma_i \boldsymbol v_i. \label{av2u} \end{aligned}$

　　再在这个方程两端左乘 $A$ ，结合方程 $\eqref{Au2v}$ 得到：

(A A T) u i = σ 2 i u i .

$\begin{aligned} (\boldsymbol{AA}^{\boldsymbol T}) \boldsymbol u_i = \sigma_i^2 \boldsymbol u_i. \end{aligned}$

　　可以看出，矩阵 $A$ 和 $A^{\mathrm T}$ 是两个互逆的变换。在这两种变换的作用下，向量 $\boldsymbol v_i$ 与 $\boldsymbol u_i$ 互为像向量。我们把这几个方程写到一起：

\begin{eqnarray} \left\{ \begin{array} \,\,\, (A^{\!\boldsymbol T}{A}) \boldsymbol v_i \, = \sigma_i^2 \boldsymbol v_i, \\ (\boldsymbol{AA}^{\!\boldsymbol T}) \boldsymbol u_i  = \sigma_i^2 \boldsymbol u_i, \\ \boldsymbol {A v}_i \,\,\, = \sigma_i \boldsymbol{u}_i, \\ A^{\mathrm T} \boldsymbol u_i = \sigma_i \boldsymbol v_i, \\ \boldsymbol v_i \cdot \boldsymbol v_j = \delta_{ij}, \\ \boldsymbol u_i \cdot \boldsymbol u_j = \delta_{ij}. \end{array} \right. \label{group} \end{eqnarray}

$\begin{eqnarray} \left\{ \begin{array} \,\,\, (A^{\!\boldsymbol T}{A}) \boldsymbol v_i \, = \sigma_i^2 \boldsymbol v_i, \\ (\boldsymbol{AA}^{\!\boldsymbol T}) \boldsymbol u_i = \sigma_i^2 \boldsymbol u_i, \\ \boldsymbol {A v}_i \,\,\, = \sigma_i \boldsymbol{u}_i, \\ A^{\mathrm T} \boldsymbol u_i = \sigma_i \boldsymbol v_i, \\ \boldsymbol v_i \cdot \boldsymbol v_j = \delta_{ij}, \\ \boldsymbol u_i \cdot \boldsymbol u_j = \delta_{ij}. \end{array} \right. \label{group} \end{eqnarray}$

　　按照定义， $\boldsymbol v_i$ 是矩阵 $A$ 的奇异向量， $\sigma_i$ 是对应的奇异值，表征这个奇异向量经过矩阵 $A$ 变换后的长度。对应的， $\boldsymbol u_i$ 是矩阵 $A^{\mathrm T}$ 的奇异向量，是对应的奇异值也是 $\sigma_i$ 。

2. 奇异值分解

　　根据前面的讨论， $m \times n$ 矩阵 $A$ 的作用空间是 $n$ 维的，向量组 $(\boldsymbol v_1, \boldsymbol v_2, \dots, \boldsymbol v_n)$ 可以作为这个空间的正交归一基底。这个空间中的任意向量 $\boldsymbol f$ 可以用这组基底展开：

f = \sum i = 1 n (v i \cdot f) v i .

$\begin{aligned} \boldsymbol f = \sum_{i = 1}^n (\boldsymbol v_i \cdot \boldsymbol f) \boldsymbol v_i. \end{aligned}$

　　结合上面的结果 $\eqref{group}$ ，矩阵 $A$ 对向量 $\boldsymbol f$ 的作用可以写为：

A f = \sum i (v i \cdot f) A v i = \sum i (σ i u i) (v T i f) = (\sum i σ i u i v T i) f .

$\begin{aligned} \boldsymbol{Af} & = \sum_i (\boldsymbol v_i \cdot \boldsymbol f) \boldsymbol{Av}_i \\& = \sum_i (\sigma_i \boldsymbol u_i) (\boldsymbol v_i^{\mathrm T} \boldsymbol f) \\ & = (\sum_i \sigma_i \boldsymbol u_i \boldsymbol v_i^{\mathrm T}) \boldsymbol f. \end{aligned}$

　　因为向量 $\boldsymbol f$ 是任意的，从上面的结果可以得到

A = \sum i = 1 n σ i u i v T i .

$\begin{aligned} A = \sum_{i = 1}^n \sigma_i \boldsymbol u_i \boldsymbol v_i^{\mathrm T}. \end{aligned}$

　　这就是矩阵的奇异值分解，把 $A$ 分解成 $n$ 个 $\boldsymbol u_i \boldsymbol v_i^{\mathrm T}$ 的和，每一项的系数是对应的奇异值 $\sigma_i$ 。这个结果可以代入方程 (6) 验证。

　　从这个分解可以看出，那些奇异值较小的项，对矩阵 $A$ 的贡献较小，在一定精度上可以省略掉。我们把 $n$ 个奇异值 $\sigma_i$ 按降序排列，在上面的分解方程中只保留前 $r$ 个:

A = \sum i = 1 r u i σ i v T i .

$\begin{equation} A = \sum_{i = 1}^r \boldsymbol u_i \sigma_i \boldsymbol v_i^{\mathrm T}. \end{equation}$

　　我们定义 $m \times r$ 阶矩阵 $\boldsymbol U$ 、 $n \times r$ 阶矩阵 $V$ 和 $r$ 阶对角矩阵 $\Sigma$ ：

U V Σ = (u 1, u 2, \dots, u r), = (v 1, v 2, \dots, v r), = d i a g (σ 1, σ 2, \dots, σ r) .

$\begin{aligned} \boldsymbol U & = (\boldsymbol u_1, \boldsymbol u_2, \dots, \boldsymbol u_r), \\ \boldsymbol V & = (\boldsymbol v_1, \boldsymbol v_2, \dots, \boldsymbol v_r), \\ \boldsymbol \Sigma & = \mathrm{diag} (\sigma_1, \sigma2, \dots, \sigma_r). \end{aligned}$

　　这样矩阵 $A$ 就可以写为三个矩阵相乘：