MIT线性代数笔记-第30讲-奇异值分解

本文详细介绍了奇异值分解(SVD)的概念,包括如何将复杂矩阵分解为更简单的子矩阵,以及在图形降噪和推荐系统中的应用。讲解了SVD的公式和性质,特别强调了如何处理非方阵矩阵和奇异矩阵的情况,以及求解正交矩阵U和V的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

30.奇异值分解

奇异值分解(简称 S V D SVD SVD分解)可以将一个比较复杂的矩阵用更小更简单的几个子矩阵相乘来表示,这些小矩阵描述的都是矩阵的重要的特性。奇异值分解在图形降噪、推荐系统中都有很重要的应用。

对于任意矩阵 A A A都有 A = U Σ V T A = U \Sigma V^T A=UΣVT,其中 U , V U , V U,V为正交矩阵,当 A A A为方阵时, Σ \Sigma Σ为对角阵且其主对角线元素即为 A A A的奇异值

由主轴定理可知对称矩阵的奇异值分解为 Q Λ Q T Q \Lambda Q^T QΛQT,此时 U = V = Q U = V = Q U=V=Q

A A A是一个 m m m n n n列的矩阵且秩为 r r r,可以将 A A A视为一个线性变换且能把行空间中的向量 v ⃗ \vec{v} v 变为列空间中的 u ⃗ \vec{u} u ,即 u ⃗ = A v ⃗ \vec{u} = A \vec{v} u =Av

考虑 A A A行空间的一组标准正交基,经过 A A A的变换后不一定能得到列空间的一组正交基,因此那组满足条件的标准正交基尤为重要,再考虑将变换后的每个向量都视为一个单位向量的倍数,即 A v ⃗ = σ u ⃗ A \vec{v} = \sigma \vec{u} Av =σu (其中 v ⃗ , u ⃗ \vec{v} , \vec{u} v ,u 均为单位向量),最后将上述过程用矩阵表示得 A [ v ⃗ 1 v ⃗ 2 ⋯ v ⃗ r ] = [ u ⃗ 1 u ⃗ 2 ⋯ u ⃗ r ] [ σ 1 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ r ] A \begin{bmatrix} \vec{v}_1 & \vec{v}_2 & \cdots & \vec{v}_r \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \vec{u}_2 & \cdots & \vec{u}_r \end{bmatrix} \begin{bmatrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \end{bmatrix} A[v 1v 2v r]=[u 1u 2u r] σ1000σ2000σr ,即 A V = U Σ A V = U \Sigma AV=UΣ

  1. A A A是可逆矩阵时, U , V U , V U,V为正交矩阵,所以 A = U Σ V − 1 = U Σ V T A = U \Sigma V^{-1} = U \Sigma V^T A=UΣV1=UΣVT

    接下来求解 U , V U , V U,V,先考虑消去 U U U,由上一讲可知 A T A A^T A ATA至少是半正定的,这说明它具有很好的性质,接下来表示出 A T A A^T A ATA,有 A T A = V Σ T U T U Σ V T = V Σ 2 V T = V [ σ 1 2 0 ⋯ 0 0 σ 2 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ r 2 ] V T A^T A = V \Sigma^T U^T U \Sigma V^T = V \Sigma^2 V^T = V \begin{bmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r^2 \end{bmatrix} V^T ATA=VΣTUTUΣVT=VΣ2VT=V σ12000σ22000σr2 VT

    因为 A T A A^T A ATA是对称矩阵,又 A T A A^T A ATA的特征值非负且 Σ 2 \Sigma^2 Σ2的主对角线元素为平方也非负,所以 V Σ 2 V T V \Sigma^2 V^T VΣ2VT可以被视为 Q Λ Q T Q \Lambda Q^T QΛQT,这样就求出了 V , Σ V , \Sigma V,Σ,即 v ⃗ 1 , v ⃗ 2 , ⋯   , v ⃗ r \vec{v}_1 , \vec{v}_2 , \cdots , \vec{v}_r v 1,v 2,,v r分别为 A T A A^T A ATA的标准正交特征向量, σ 1 , σ 2 , ⋯   , σ r \sigma_1 , \sigma_2 , \cdots , \sigma_r σ1,σ2,,σr分别为 A T A A^T A ATA特征值的平方根

    同理可以由 A A T A A^T AAT得到 U U U,即 u ⃗ 1 , u ⃗ 2 , ⋯   , u ⃗ r \vec{u}_1 , \vec{u}_2 , \cdots , \vec{u}_r u 1,u 2,,u r分别为 A A T A A^T AAT的标准正交特征向量

    例: A = [ 4 4 − 3 3 ] A = \begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix} A=[4343] S V D SVD SVD分解

    ​   有 A T A = [ 4 − 3 4 3 ] [ 4 4 − 3 3 ] = [ 25 7 7 25 ] A^T A = \begin{bmatrix} 4 & -3 \\ 4 & 3 \end{bmatrix} \begin{bmatrix} 4 & 4 \\ -3 & 3 \end{bmatrix} = \begin{bmatrix} 25 & 7 \\ 7 & 25 \end{bmatrix} ATA=[4433][4343]=[257725],解得其特征值为 32 , 18 32 , 18 32,18,对应特征向量 [ 1 1 ] , [ 1 − 1 ] \begin{bmatrix} 1 \\ 1 \end{bmatrix} , \begin{bmatrix} 1 \\ -1 \end{bmatrix} [11],[11]

    ​   标准化后得到 [ 1 2 1 2 ] , [ 1 2 − 1 2 ] \begin{bmatrix} 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} \end{bmatrix} , \begin{bmatrix} 1\over{\sqrt{2}} \\ -1\over{\sqrt{2}} \end{bmatrix} [2 12 1],[2 12 1],所以 Σ = [ 4 2 0 0 3 2 ] , V T = [ 1 2 1 2 1 2 − 1 2 ] \Sigma = \begin{bmatrix} 4\sqrt{2} & 0 \\ 0 & 3\sqrt{2} \end{bmatrix} , V^T = \begin{bmatrix} 1\over{\sqrt{2}} & 1\over{\sqrt{2}} \\ 1\over{\sqrt{2}} & -1\over{\sqrt{2}} \end{bmatrix} Σ=[42 0032 ],VT=[2 12 12 12 1]

    ​   再用和求 V V V类似的方法求得 U = [ 1 0 0 1 ] U = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} U=[1001],但是此时 U Σ V T = [ 4 4 3 − 3 ] ≠ A U \Sigma V^T = \begin{bmatrix} 4 & 4 \\ 3 & -3 \end{bmatrix} \ne A UΣVT=[4343]=A

    ​   这是因为在求 u ⃗ \vec{u} u 时没有考虑已经求得的对应 v ⃗ \vec{v} v ,而 u ⃗ \vec{u} u 本应该由对应 v ⃗ \vec{v} v 得到,所以应该用已经求得的 V V V Σ \Sigma Σ求出 U U U

    ​   比如把该例子中 U U U的第二个列向量换为 [ 0 − 1 ] \begin{bmatrix} 0 \\ -1 \end{bmatrix} [01],仍然可以对应特征值且保持标准正交,还满足 U Σ V T = A U \Sigma V^T = A UΣVT=A

  2. A A A是奇异矩阵时,应该考虑矩阵的零空间和左零空间,它们分别和行空间、列空间正交,因此分别把它们的一组标准正交基加入 V , U V , U V,U,这样 U , V U , V U,V又成为了正交矩阵,并且零空间和左零空间基中的元素对应的 σ = 0 \sigma = 0 σ=0

    A [ v ⃗ 1 ⋯ v ⃗ r v ⃗ r + 1 ⋯ v ⃗ n ] = [ u ⃗ 1 ⋯ u ⃗ r u ⃗ r + 1 ⋯ u ⃗ n ] [ σ 1 ⋯ 0 0 ⋯ 0 ⋮ ⋱ ⋮ ⋮ ⋯ ⋮ 0 ⋯ σ r 0 ⋯ 0 0 ⋯ 0 0 ⋯ 0 ⋮ ⋯ ⋮ ⋮ ⋱ ⋮ 0 ⋯ 0 0 ⋯ 0 ] A \begin{bmatrix} \vec{v}_1 & \cdots & \vec{v}_r & \vec{v}_{r + 1} & \cdots & \vec{v}_n \end{bmatrix} = \begin{bmatrix} \vec{u}_1 & \cdots & \vec{u}_r & \vec{u}_{r + 1} & \cdots & \vec{u}_n \end{bmatrix} \begin{bmatrix} \sigma_1 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots & \cdots & \vdots \\ 0 & \cdots & \sigma_r & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \cdots & \vdots & \vdots & \ddots & \vdots \\ 0 & \cdots & 0 & 0 & \cdots & 0 \end{bmatrix} A[v 1v rv r+1v n]=[u 1u ru r+1u n] σ10000σr0000000000

    这样也有 A = U Σ V T A = U \Sigma V^T A=UΣVT,求 U , V U , V U,V的方法和 A A A为可逆矩阵时一致

  3. A A A不是方阵时,考虑了零空间和左零空间后, U , V U , V U,V的维数分别为 m , n m , n m,n,不再相等,所以 Σ \Sigma Σ会是一个 m m m n n n列的矩阵

    但是仍然有 A = U Σ V T A = U \Sigma V^T A=UΣVT,并且求 U , V U , V U,V的方法还是一样的


打赏

制作不易,若有帮助,欢迎打赏!
赞赏码

支付宝付款码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒蜩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值