SVD(Singular Value Decomposition, 奇异值分解)数学证明

最新推荐文章于 2025-07-09 21:22:41 发布

原创最新推荐文章于 2025-07-09 21:22:41 发布 · 568 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#线性代数 #矩阵

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了奇异值分解(SVD)的数学原理及其在机器学习和图像压缩中的应用。SVD是一种强大的线性代数工具，可以将任意矩阵分解为三个矩阵的乘积，从而实现数据压缩和特征提取。通过详细的数学证明，我们理解了SVD如何帮助我们节省存储空间，并提高了数据处理的效率。

奇异值分解（SVD）在机器学习、图像压缩中应用很多，使用它能够节省很多存储空间。这里主要从数学原理上阐述SVD的证明。

SVD

- 奇异值分解定义
- 数学证明

奇异值分解定义

对任意矩阵 $\in R^{m\times n}$ ，存在正交矩阵 $\in R^{m \times m}, V\in R^{n \times n}$ 及除了主对角线上的元素以外全为0的矩阵 $\Sigma \in R^{m \times n}$ ，使得 $U\Sigma V^{T}$ ，其中 $\Sigma$ 的主对角元上的元素满足 $\sigma_{11} \ge \sigma_{22} \ge...\ge \sigma_{kk}, k= min(m,n).$
其中称 $\sigma_i = \sqrt{\lambda_i}, i=1,2,...,r$ 为 $A$ 的奇异值， $r$ 为 $A$ 的秩且 $\lambda_1,\lambda_2,...,\lambda_r$ 为 $A^{T}A$ 的非零特征值。

数学证明

因为 $A^{T}A$ 为实对称矩阵，所以存在正交矩阵 $V$ 使得 $V^{T}A^{T}AV=diag(\lambda_1,...,\lambda_n),$ 其中 $\lambda_1,...,\lambda_n$ 为 $A^{T}A$ 的特征值。
因为 $A^{T}Av_i=\lambda_iv_i,$ $v_i^{T}A^{T}Av_i=\lambda_iv_i^{T}v_i=\lambda_i,$ 所以 $\lambda_i=(Av_i)^{T}Av_i\ge0$ 则不妨设 $\lambda_1\ge...\ge\lambda_n\ge0.$

设 $V=(v_1,...,v_n)，$ 且 $v_i(i=1,...,n)$ 为 $A^{T}A$ 的属于 $\lambda_i$ 的特征向量以及 $R^{n}$ 的一组标准正交基，设 $r = r a n k (A)$ ，有 $(Av_i,Av_j)=v_i^{T}A^{T}Av_j=v_i^{T}\lambda_jv_j=\begin{cases} \lambda_i\neq0, & \text{if $i=j$} \\ 0, & \text{if $i\neq j$ } \end{cases}(i,j=1,...,r)$
其中， $\sqrt{\lambda_i}=|Av_i|,(i=1,...,r)$ ，且 $Av_1,...,Av_r$ 也为正交基，
令 $u_i=\frac{Av_i}{|Av_i|},i=1,...,r$ 再将 $u_1,...,u_r$ 扩充成 $R^{m}$ 的一组标准正交基 $u_1,...,u_r,...,u_m.$ 令 $U=(u_1,...,u_m)$ , 有 $AV=A(v_1,...,v_n)=(Av_1,...,Av_r,0,...,0)=(\sqrt{\lambda_1}u_1,...,\sqrt{\lambda_r}u_r,0,...,0)\\=(u_1,...,u_m)diag(\sqrt{\lambda_1},...,\sqrt{\lambda_r},0,...,0)$ 所以 $A=U\Sigma V^{T}$ 且 $\sqrt{\lambda_1}\ge...\ge\sqrt{\lambda_r}.$