《统计学习方法》学习笔记15：奇异值分解

最新推荐文章于 2021-07-08 08:57:47 发布

原创最新推荐文章于 2021-07-08 08:57:47 发布 · 650 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性代数

本文介绍了奇异值分解（SVD），它是线性代数概念，在统计学习中广泛应用。文中阐述了SVD的定义、性质，包括紧奇异值分解和截断奇异值分解，说明了其几何意义，给出了计算方法，并通过Python Numpy实现，还给出了具体示例。

奇异值分解

简介

奇异值分解(singular value decomposition,SVD)是一种矩阵因子分解方法，是线性代数的概念，但在统计学习中被广泛使用，成为其重要工具。本书介绍的主成分分析、潜在语义分析都用到奇异值分解。
任意一个m x n矩阵，都可以表示为三个矩阵的乘积(因子分解)形式，分别是m阶正交矩阵、由降序排列的非负的对角线元素组成的m x n矩形对角矩阵和n阶正交矩阵，称为该矩阵的奇异值分解。矩阵的奇异值分解一定存在，但不唯一。奇异值分解可以看作是矩阵数据压缩的一种方法，即用因子分解的方式近似地表示原始矩阵，这种近似是在平方损失意义下的最优近似。

定义与性质

定义与定理

定义 (奇异值分解) 矩阵的奇异值分解是指，将一个非零的 $\times n$ 实矩阵 $A，A ∈R_{m×n}$ ，表示为以下三个实矩阵乘积形式的运算，即进行矩阵的因子分解:
$A=U\Sigma V^T$
其中 $U$ 是 $m$ 阶正交矩阵(orthogonal matrix )， $V$ 是 $n$ 阶正交矩阵，又是由降序排列的非负的对角线元素组成的 $\times n$ 矩形对角矩阵(rectangular diagonal matrix)，满足
$UU^T=I$
$VV^T=I$
$\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_p)$
$\sigma_1\ge\sigma_2\ge...\ge\sigma_p\ge0$
$p = m i n (m, n)$
$U\Sigma V^T$ 称为矩阵A的奇异值分解( singular value decomposition，SVD )， $\sigma_i$ 称为矩阵A的奇异值( singular value )， $U$ 的列向量称为左奇异向量(left singular vector )， $V$ 的列向量称为右奇异向量( right singular vector )。
注意：奇异值分解不要求矩阵A是方阵，事实上矩阵的奇异值分解可以看作是方阵的对角化的推广。
例如，给定一个 $5\times4$ 的矩阵 $A$
$\begin{bmatrix} 1&0&0&0 \\ 0&0&0&4 \\0&3&0&0 \\0&0&0&0 \\2&0&0&0 \end{bmatrix}$
它的奇异值分解由三个矩阵的乘积 $U\Sigma V^T$ 给出，矩阵 $U,\Sigma ,V^T$ 分别为
$\begin{bmatrix} 0&0&\sqrt{0.2}&0&\sqrt{0.8} \\ 1&0&0&0&0 \\0&1&0&0&0 \\0&0&0&1&0 \\0&0&\sqrt{0.8}&0&-\sqrt{0.2}\end{bmatrix}$
$\Sigma=\begin{bmatrix} 4&0&0&0 \\ 0&3&0&0 \\0&0&\sqrt{5}&0 \\0&0&0&0 \\0&0&0&0 \end{bmatrix}$
$V^T=\begin{bmatrix} 0&0&0&1 \\ 0&1&0&0 \\1&0&0&0 \\0&0&1&0 \end{bmatrix}$
矩阵 $\Sigma$ 是对角矩阵，对角线外的元素都是0，对角线上的元素非负，按降序排列。矩阵 $U$ 和 $V$ 是正交矩阵，它们与各自的转置矩阵相乘是单位矩阵，即
$UU^T=I_5$ ， $VV^T=I_4$
矩阵的奇异值分解不是唯一的。矩阵 $U$ 还可以为
$\begin{bmatrix} 0&0&\sqrt{0.2}&\sqrt{0.4}&\sqrt{0.8} \\ 1&0&0&0&0 \\0&1&0&0&0 \\0&0&0&\sqrt{0.5}&\sqrt{0.5} \\0&0&\sqrt{0.8}&-\sqrt{0.1}&-\sqrt{0.1}\end{bmatrix}$
满足 $A_{m\times n}=U_{m\times m}\Sigma_{m\times n}V^T_{n\times n}$
基本定理：任意给定一个实矩阵，其奇异值分解一定存在

紧奇异值分解与截断奇异值分解

$A=U\Sigma V^T$ 又称为矩阵的完全奇异值分解(full singular value decomposition)。
实际常用的是奇异值分解的紧凑形式和截断形式。
紧奇异值分解是与原始矩阵等秩的奇异值分解
截断奇异值分解是比原始矩阵低秩的奇异值分解。
矩阵的秩-百度百科

紧奇异值分解

定义

设有 $m \times n$ 实矩阵A，其秩为 $r a n k (A) = T ， r \leq m i n (m, n)$ ，则称 $U_r\Sigma_r V^T_r$ 为 $A$ 的紧奇异值分解(compact singular value decomposition)，即

$A=U_r\Sigma_r V^T_r$
其中， $U_r$ 是 $m \times r$ 矩阵， $V_r$ 是 $n \times r$ 矩阵， $\Sigma_r$ 是 $r$ 阶对角矩阵;矩阵 $U_r$ 由完全奇异值分解中 $U$ 的前 $r$ 列、矩阵 $V$ 由 $V$ 的前 $r$ 列、矩阵 $\Sigma_r$ 由 $\Sigma$ 的前 $r$ 个对角线元素得到。紧奇异值分解的对角矩阵 $\Sigma_r$ 的秩与原始矩阵 $A$ 的秩相等。
例如，给定一个矩阵 $A$ 的秩为 $r = 3$
$\begin{bmatrix} 1&0&0&0 \\ 0&0&0&4 \\0&3&0&0 \\0&0&0&0 \\2&0&0&0 \end{bmatrix}$
A的紧奇异值分解是 $A=U_r\Sigma_r V^T_r$
其中
$U_r = \begin{bmatrix} 0&0&\sqrt{0.2} \\ 1&0&0 \\0&1&0\\0&0&0 \\0&0&\sqrt{0.8}\end{bmatrix}$
$\Sigma_r=\begin{bmatrix} 4&0&0 \\ 0&3&0\\0&0&\sqrt{5} \end{bmatrix}$
$V^T_r=\begin{bmatrix} 0&0&0&1 \\ 0&1&0&0 \\1&0&0&0\end{bmatrix}$
满足 $A_{m\times n}=U_{m\times r}\Sigma_{r\times r}V^T_{r\times n}$ ,其中 $r$ 表示矩阵 $A$ 的秩

截断奇异值分解

在矩阵的奇异值分解中，只取最大的 $k$ 个奇异值( $k < r, r$ 为矩阵的秩)对应的部分，就得到矩阵的截断奇异值分解。实际应用中提到矩阵的奇异值分解时，通常指截断奇异值分解。

定义

设 $A$ 为 $m x n$ 实矩阵，其秩 $r a n k (A) = r$ ，且 $0 < k < r$ ，则称 $U_k\Sigma_kV^T_k$ 为矩阵 $A$ 的截断奇异值分解( truncated singular value decomposition)

$\approx U_k\Sigma_kV^T_k$
其中 $U_k$ 是 $m \times k$ 矩阵， $V_k$ 是 $n \times k$ 矩阵， $\Sigma_k$ 是 $k$ 阶对角矩阵;矩阵 $U_k$ 由完全奇异值分解中 $U$ 的前 $k$ 列、矩阵 $V$ 由 $V$ 的前 $k$ 列、矩阵由 $\Sigma_k$ 的前 $k$ 个对角线元素得到。对角矩阵 $\Sigma_k$ 的秩比原始矩阵A的秩低。
例如，给出一个矩阵 $A$
$\begin{bmatrix} 1&0&0&0 \\ 0&0&0&4 \\0&3&0&0 \\0&0&0&0 \\2&0&0&0 \end{bmatrix}$
$A$ 的秩为3，若取 $k = 2$ 则其截断奇异值分解是 $A\approx A_2=U_2\Sigma_2 V^T_2$
其中
$U_2 = \begin{bmatrix} 0&0 \\ 1&0 \\0&1\\0&0 \\0&0\end{bmatrix}$
$\Sigma_2=\begin{bmatrix} 4&0 \\ 0&3\end{bmatrix}$
$V^T_2=\begin{bmatrix} 0&0&0&1 \\ 0&1&0&0 \end{bmatrix}$
$A_2=U_2\Sigma_2 V^T_2= \begin{bmatrix} 0&0&0&0 \\ 0&0&0&4 \\0&3&0&0 \\0&0&0&0 \\0&0&0&0 \end{bmatrix}$
满足 $A_{m\times k}=U_{m\times k}\Sigma_{k\times k}V^T_{k\times n}$ , $0 < k < r$ ,其中, $r$ 表示矩阵 $A$ 的秩

几何意义

在这里插入图片描述

从线性变换的角度理解奇异值分解， $\times n$ 矩阵 $A$ 表示从 $n$ 维空间 $R^n$ 到 $m$ 维空间 $R^m$ 的一个线性变换，
$T:x\to Ax$

$x∈R^n，Ax ∈ R^m$ ， $x$ 和 $A x$ 分别是各自空间的向量。线性变换可以分解为三个简单的变换:一个坐标系的旋转或反射变换( $V^T$ )、一个坐标轴的缩放变换( $\Sigma$ )、另一个坐标系的旋转或反射变换( $U$ )。奇异值定理保证这种分解一定存在。这就是奇异值分解的几何解释。
任意一个向量 $x ∈ R^n$ ，经过基于 $A=U\Sigma V^T$ 的线性变换，等价于经过坐标系的旋转或反射变换 $V^T$ ，坐标轴的缩放变换 $\Sigma$ ，以及坐标系的旋转或反射变换 $U$ ，得到向量 $Ax ∈ R^m$ 。
上图给出直观的几何解释。原始空间的标准正交基(红色与黄色)，经过坐标系的旋转变换 $V^T$ 、坐标轴的缩放变换 $\Sigma$ (黑色 $\sigma_1,\sigma_2$ )、坐标系的旋转变换 $U$ ，得到和经过线性变换 $A$ 等价的结果。
例如，给定一个2阶矩阵
$A=\begin{bmatrix} 3&1 \\ 2&1 \end{bmatrix}$
其奇异值分解为
$U=\begin{bmatrix} 0.8174&-0.5760 \\ 0.5760 &0.8174\end{bmatrix},\Sigma=\begin{bmatrix} 3.8643&0 \\ 0 &0.2588\end{bmatrix},V^T=\begin{bmatrix} 0.9327&0.3606 \\ -0.3606&0.9327\end{bmatrix}$
观察基于矩阵 $A$ 的奇异值分解将 $R^2$ 的标准正交基
$e_1=\begin{bmatrix} 1 \\ 0\end{bmatrix},e_2=\begin{bmatrix} 0 \\ 1\end{bmatrix}$
进行线性转换的情况。
首先, $V^T$ 表示一个旋转变换,将标准正交基 $e_1，e_2$ 旋转，得到向量 $V^Te_1,V^Te_2$ :
$V^Te_1=\begin{bmatrix} 0.9327\\ -0.3606\end{bmatrix},V^Te_2=\begin{bmatrix} 0.3606\\0.9327\end{bmatrix}$
其次， $\Sigma$ 表示一个缩放变换，将向量 $V^Te_1,V^Te_2$ 在坐标轴方向缩放 $\sigma_1$ 倍和 $\sigma_2$ 倍，得到向量 $\Sigma V^Te_1,\Sigma V^Te_2$ :
$\Sigma V^Te_1=\begin{bmatrix} 3.6042\\-0.0933\end{bmatrix},\Sigma V^Te_2=\begin{bmatrix} 1.3935\\ 0.2414\end{bmatrix}$
最后， $U$ 表示一个旋转变换，再将向量 $\Sigma V^Te_1,\Sigma V^Te_2$ 旋转，得到向量 $U\Sigma V^Te_1,U\Sigma V^Te_2$ ，也就是向量 $Ae_1和Ae_2$ :
$Ae_1=\begin{bmatrix} 3\\ 2\end{bmatrix},Ae_2=\begin{bmatrix} 1\\ 1\end{bmatrix}$

综上，矩阵的奇异值分解也可以看作是将其对应的线性变换分解为旋转变换、缩放变换及旋转变换的组合。经验证，这个变换的组合一定存在。

奇异值分解的计算

奇异值分解基本定理证明的过程蕴含了奇异值分解的计算方法。矩阵A的奇异值分解可以通过求对称矩阵 $A^TA$ 的特征值和特征向量得到。 $A^TA$ 的特征向量构成正交矩阵 $V$ 的列; $A^TA$ 的特征值 $\lambda_j$ 的平方根为奇异值 $\sigma_i$ ，即
$\sigma_j=\sqrt{\lambda_j},j=1,2,...,n$
对其由大到小排列作为对角线元素，构成对角矩阵 $\Sigma$ ;求正奇异值对应的左奇异向量，再求扩充的 $A^T$ 的标准正交基，构成正交矩阵 $U$ 的列。从而得到 $A$ 的奇异值分解 $A=U\Sigma V^T$

计算过程

给定 $\times n$ 矩阵 $A$ ，可以按照上面的叙述写出矩阵奇异值分解的计算过程。

首先求 $A^TA$ 的特征值和特征向量。
计算对称矩阵 $W=A^TA$
求解特征方程 $(W-\lambda I)x=0$
得到特征值 $\lambda_i$ ，并将特征值由大到小排列 $\lambda_1\ge\lambda_2\ge...\ge\lambda_n\ge0$
将特征值 $\lambda_i(i= 1,2,… ,n)$ 代入特征方程求得对应的特征向量。
求 $n$ 阶正交矩阵 $V$
将特征向量单位化，得到单位特征向量 $v_1,v_2,… ,v_n$ ， $n$ 阶正交矩阵 $V$ :
$V=\begin{bmatrix} v_1&v_2& … & v_n\end{bmatrix}$
求 $m\times n$ 对角矩阵 $\Sigma$
计算 $A$ 的奇异值 $\sigma_j=\sqrt{\lambda_j},j=1,2,...,n$
构造 $m\times n$ 矩形对角矩阵 $\Sigma$ ，主对角线元素是奇异值，其余元素是零，
$\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_n)$
求 $m$ 阶正交矩阵 $U$
对 $A$ 的前 $r$ 个正奇异值,令 $u_j=\frac{1}{\sigma_j}Av_j,j=1,2,...,r$
得到 $U_1=\begin{bmatrix} u_1&u_2& … & u_r\end{bmatrix}$
求 $A^T$ 的零空间的一组标准正交基{ $u_{r+1},u_{r+2},...,u_{m},$ },令
$U_2=\begin{bmatrix} u_{r+1}&u_{r+2}&...&u_{m}\end{bmatrix}$
并令 $U=\begin{bmatrix} U_1&U_2\end{bmatrix}$
得到奇异值分解 $A=U\Sigma V^T$

例：求矩阵 $A=\begin{bmatrix}1&1\\2&2\\0&0\end{bmatrix}$ 的奇异值分解。
解：

求 $A^TA$ 的特征值和特征向量
$A^TA=\begin{bmatrix}1&2&0\\1&2&0\end{bmatrix}\begin{bmatrix}1&1\\2&2\\0&0\end{bmatrix}=\begin{bmatrix}5&5\\5&5\end{bmatrix}$
特征值 $\lambda$ 和特征向量 $x$ 满足特征方程 $(A^TA-\lambda I)x=0$
得到齐次线性方程组
$\begin{cases}(5-\lambda)x_1+5x_2=0\\ 5x_1+(5-\lambda)x_2=0\end{cases}$
该方程组有非零解的充要条件是
$\left |\begin{array}{cccc} 5-\lambda&5 \\ 5&5-\lambda \\ \end{array}\right|=0$
即 $\lambda_2-10\lambda=0$
解此方程，得矩阵 $A^TA$ 的特征值 $\lambda_1=10,\lambda_2=0$ 。
将特征值 $\lambda_1=10,\lambda_2=0$ 分别代入线性方程组，得到相对应的单位特征向量 $v_1=\begin{bmatrix}\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}\end{bmatrix},v_2=\begin{bmatrix}\frac{1}{\sqrt{2}}\\-\frac{1}{\sqrt{2}}\end{bmatrix}$
求正交矩阵 $V$
构造正交矩阵 $V$
$V=\begin{bmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{bmatrix}$
求对角矩阵 $\Sigma$
奇异值为 $\sigma_1=\sqrt{\lambda_1}=\sqrt{10}$ 和 $\sigma_2=0$ 。
构造对角矩阵 $\Sigma=\begin{bmatrix}\sqrt{10}&0\\0&0\\0&0\end{bmatrix}$
注意：在 $\Sigma$ 中要加上零行向量，使得 $\Sigma$ 能够与 $U, V$ 进行矩阵乘法运算。
求正交矩阵 $U$
基于 $A$ 的正奇异值计算得到列向量 $u_1$
$u_1=\frac{1}{\sigma_1}Av_1=\frac{1}{\sqrt{10}}\begin{bmatrix}1&1\\2&2\\0&0\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}\end{bmatrix}=\begin{bmatrix}\frac{1}{\sqrt{5}} \\ \frac{2}{\sqrt{5}}\\0\end{bmatrix}$
列向量 $u_2，u_3$ 是 $A^T$ 的零空间 $N(A^T)$ 的一组标准正交基。为此，求解以方程组
$A^Tx=\begin{bmatrix}1&2&0\\1&2&0\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}$
即 $x_1+2x_2+0x_3=0$ 得 $x_1=-2x_2+0x_3$
分别取 $x_2,x_3)$ 为 $(1, 0) 和 (0, 1)$ 得到 $N(A^T)$ 的基 $2,1,0)^T,(0,0,1)^T$
$N(A^T)$ 的一组标准正交基是 $u_2=( -\frac{2}{\sqrt{5}}, \frac{1}{\sqrt{5}},0)^T,u_3=(0,0,1)^T$
构造正交矩阵 $U$
$U=\begin{bmatrix}\frac{1}{\sqrt{5}}&-\frac{2}{\sqrt{5}}&0\\\frac{2}{\sqrt{5}}&\frac{1}{\sqrt{5}}&0\\0&0&1\end{bmatrix}$
矩阵 $A$ 的奇异值分解
$A=U\Sigma V^T=\begin{bmatrix}\frac{1}{\sqrt{5}}&-\frac{2}{\sqrt{5}}&0\\\frac{2}{\sqrt{5}}&\frac{1}{\sqrt{5}}&0\\0&0&1\end{bmatrix}\begin{bmatrix}\sqrt{10}&0\\0&0\\0&0\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}}\end{bmatrix}$

Python Numpy实现奇异值分解

import numpy as np
# 奇异值分解SVD
A = np.mat([[1,1], [2,2],[0,0]])
print("A:",A)
U,Sigma,V_T = np.linalg.svd(A)
print("U:\n",U)
print("Sigma:\n",Sigma)
print("V_T:\n",V_T)
# 还原
Sigma_3x2 = np.mat([Sigma,[0,0],[0,0]])
print("Sigma_3x2:\n",Sigma_3x2)
A_restore = U * Sigma_3x2 * V_T
print("A_restore:\n",A_restore)