MIT线性代数笔记-第30讲-奇异值分解_奇异值分解uv推导-优快云博客

本文链接：https://blog.youkuaiyun.com/jiaoliao946/article/details/135251383

本文详细介绍了奇异值分解(SVD)的概念，包括如何将复杂矩阵分解为更简单的子矩阵，以及在图形降噪和推荐系统中的应用。讲解了SVD的公式和性质，特别强调了如何处理非方阵矩阵和奇异矩阵的情况，以及求解正交矩阵U和V的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

30.奇异值分解

奇异值分解（简称 $S V D$ 分解）可以将一个比较复杂的矩阵用更小更简单的几个子矩阵相乘来表示，这些小矩阵描述的都是矩阵的重要的特性。奇异值分解在图形降噪、推荐系统中都有很重要的应用。

对于任意矩阵 $A$ 都有 $\Sigma V^T$ ，其中 $U, V$ 为正交矩阵，当 $A$ 为方阵时， $\Sigma$ 为对角阵且其主对角线元素即为 $A$ 的奇异值

由主轴定理可知对称矩阵的奇异值分解为 $\Lambda Q^T$ ，此时 $U = V = Q$

设 $A$ 是一个 $m$ 行 $n$ 列的矩阵且秩为 $r$ ，可以将 $A$ 视为一个线性变换且能把行空间中的向量 $\vec{v}$ 变为列空间中的 $\vec{u}$ ，即 $\vec{u} = A \vec{v}$

考虑 $A$ 行空间的一组标准正交基，经过 $A$ 的变换后不一定能得到列空间的一组正交基，因此那组满足条件的标准正交基尤为重要，再考虑将变换后的每个向量都视为一个单位向量的倍数，即 $\vec{v} = \sigma \vec{u}$ （其中 $\vec{v} , \vec{u}$ 均为单位向量），最后将上述过程用矩阵表示得 $\begin{bmatrix} \vec{v}_1 & \vec{v}_2 & \cdots & \vec{v}_r \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \vec{u}_2 & \cdots & \vec{u}_r \end{bmatrix} \begin{bmatrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \end{bmatrix}$ ，即 $\Sigma$

当 $A$ 是可逆矩阵时， $U, V$ 为正交矩阵，所以 $\Sigma V^{-1} = U \Sigma V^T$

接下来求解 $U, V$ ，先考虑消去 $U$ ，由上一讲可知 $A^T A$ 至少是半正定的，这说明它具有很好的性质，接下来表示出 $A^T A$ ，有 $A^T A = V \Sigma^T U^T U \Sigma V^T = V \Sigma^2 V^T = V \begin{bmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r^2 \end{bmatrix} V^T$

因为 $A^T A$ 是对称矩阵，又 $A^T A$ 的特征值非负且 $\Sigma^2$ 的主对角线元素为平方也非负，所以 $\Sigma^2 V^T$ 可以被视为 $\Lambda Q^T$ ，这样就求出了 $\Sigma$ ，即 $\vec{v}_1 , \vec{v}_2 , \cdots , \vec{v}_r$ 分别为 $A^T A$ 的标准正交特征向量， $\sigma_1 , \sigma_2 , \cdots , \sigma_r$ 分别为 $A^T A$ 特征值的平方根

同理可以由 $A A^T$ 得到 $U$ ，即 $\vec{u}_1 , \vec{u}_2 , \cdots , \vec{u}_r$ 分别为 $A A^T$ 的标准正交特征向量

例：求 $\begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix}$ 的 $S V D$ 分解

有 $A^T A = \begin{bmatrix} 4 & -3 \\ 4 & 3 \end{bmatrix} \begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix} = \begin{bmatrix} 25 & 7 \\ 7 & 25 \end{bmatrix}$ ，解得其特征值为 $32, 18$ ，对应特征向量 $\begin{bmatrix} 1 \\ 1 \end{bmatrix} , \begin{bmatrix} 1 \\ -1 \end{bmatrix}$

标准化后得到 $\begin{bmatrix} 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} \end{bmatrix} , \begin{bmatrix} 1\over{\sqrt{2}} \\ -1\over{\sqrt{2}} \end{bmatrix}$ ，所以 $\Sigma = \begin{bmatrix} 4\sqrt{2} & 0 \\ 0 & 3\sqrt{2} \end{bmatrix} , V^T = \begin{bmatrix} 1\over{\sqrt{2}} & 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} & -1\over{\sqrt{2}} \end{bmatrix}$

再用和求 $V$ 类似的方法求得 $\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ ，但是此时 $\Sigma V^T = \begin{bmatrix} 4 & 4 \\ 3 & -3 \end{bmatrix} \ne A$

这是因为在求 $\vec{u}$ 时没有考虑已经求得的对应 $\vec{v}$ ，而 $\vec{u}$ 本应该由对应 $\vec{v}$ 得到，所以应该用已经求得的 $V$ 和 $\Sigma$ 求出 $U$

比如把该例子中 $U$ 的第二个列向量换为 $\begin{bmatrix} 0 \\ -1 \end{bmatrix}$ ，仍然可以对应特征值且保持标准正交，还满足 $\Sigma V^T = A$
当 $A$ 是奇异矩阵时，应该考虑矩阵的零空间和左零空间，它们分别和行空间、列空间正交，因此分别把它们的一组标准正交基加入 $V, U$ ，这样 $U, V$ 又成为了正交矩阵，并且零空间和左零空间基中的元素对应的 $\sigma = 0$

即 $\begin{bmatrix} \vec{v}_1 & \cdots & \vec{v}_r & \vec{v}_{r + 1} & \cdots & \vec{v}_n \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \cdots & \vec{u}_r & \vec{u}_{r + 1} & \cdots & \vec{u}_n \end{bmatrix} \begin{bmatrix} \sigma_1 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots & \cdots & \vdots \\ 0 & \cdots & \sigma_r & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \cdots & \vdots & \vdots & \ddots & \vdots \\ 0 & \cdots & 0 & 0 & \cdots & 0 \end{bmatrix}$

这样也有 $\Sigma V^T$ ，求 $U, V$ 的方法和 $A$ 为可逆矩阵时一致
当 $A$ 不是方阵时，考虑了零空间和左零空间后， $U, V$ 的维数分别为 $m, n$ ，不再相等，所以 $\Sigma$ 会是一个 $m$ 行 $n$ 列的矩阵

但是仍然有 $\Sigma V^T$ ，并且求 $U, V$ 的方法还是一样的