奇异值分解（SVD）

最新推荐文章于 2025-06-29 12:13:28 发布

原创最新推荐文章于 2025-06-29 12:13:28 发布 · 739 阅读

2 ·

CC 4.0 BY-SA版权

Machine Learning 专栏收录该内容

27 篇文章

订阅专栏

主成分分析的方法有两种，一种是相关矩阵的特征值分解，；另一种是样本矩阵的奇异值分解。
前面我们学过了利用协方差矩阵来使用PCA来降维，将数据投影到新超平面空间，主要是计算数据的协方差矩阵，然后求协方差矩阵的特征值和特征向量，将特征值按照大到小的顺序排列，然后删掉较小的特征值，将数据投影到特征空间。现在来了解一下奇异值分解。

奇异值分解

$Am×n=Um×nΣn×nVn×nA_{m\times n}=U_{m\times n}\Sigma_{n\times n}V_{n\times n}$
其中U,V分别是m,n阶的正交矩阵，A为数据矩阵。 $Σ\Sigma$ 是 $m×nm\times n$ 矩形对角矩阵，其对角线元素非负，按降序排列。
那么 $U,Σ,VU,\Sigma,V$ 应该怎么求得呢？

确定 $V,ΣV,\Sigma$

构造n阶正交实矩阵V,
矩阵A是 $m×nm\times n$ 实矩阵，则 $A^TA$ 是n阶实对称矩阵（实对称矩阵必能相似对角化），即有n个线性无关的特征向量，所以必然存在一个n阶正交矩阵V使得 $A^TA$ 对角化，即 $V(ATA)VT=ΛV(A^TA)V^T=\Lambda$ ,
可设V的正交向量对应的特征值的降序排列是：
$λ1≥λ2≥...≥λn≥0\lambda_1\ge\lambda_2\ge...\ge\lambda_n\ge0$
计算其平方根，实际就是矩阵A的奇异值。
$σi=λi,1≤i≤n\sigma_i=\sqrt{\lambda_i},\quad1\le i\le n$
设A的秩为r,则 $A^TA$ 的秩也为r,因为 $A^TA是对称矩阵$ （实对称矩阵可看作二次型），它的值等于正的特征值的个数，所以:
$λ1≥λ2≥...≥λr,λr+1=...=λn=0\lambda_1\ge\lambda_2\ge...\ge\lambda_r,\quad\lambda_{r+1}=...=\lambda_n=0$
令 $V_1=[v_1,...,v_r],V_2=[v_{r+1},...,v_n]$
设 $v_1,...,v_r对应的A^TA正特征值的特征向量，v_{r+1},...,v_n$ 是特征值为零的特征向量， $V=[V_1,V_2]$ ,这就是奇异值分解中的V矩阵。
对于特征值为零的向量有 $ATAvj=0×vj=0,j>rA^TAv_j=0\times v_j=0,\quad j\gt r$ ,所以有 $AV_2=0$
因为V是正交矩阵， $I$ 表示单位矩阵，所以 $I=VV^T=V_1V_1^T+V_2V_2^T,\\A=AI=AV_1V_1^T+AV_2V_2^T=AV_1V_1^T$
特征值对应的奇异值有：
$σ1≥σ2≥...≥σr,σr+1=...=σn=0\sigma_1\ge\sigma_2\ge...\ge\sigma_r,\quad\sigma_{r+1}=...=\sigma_n=0$
$Σ1=[σ1σ2...σr]\Sigma_1=\begin{bmatrix}\sigma_1&&&\\&\sigma_2&&\\&&...&\\&&&\sigma_r\end{bmatrix}$
$Σ=[Σ1000]\Sigma=\begin{bmatrix}\Sigma_1&0\\0&0\end{bmatrix}$

确定 $U$
令 $uj=1σjAvj,j=1,2,3,..,ru_j=\frac{1}{\sigma_j}Av_j,\quad j=1,2,3,..,r$
$U_1=[u_1,...,u_r]$
令 ${u_{r+1},u_{r+2},...,u_n\}$ 为 $A^T$ 的一组标准正交基，并令 $U_2=[u_{r+1},u_{r+2},...,u_n]$
$U=[U_1,U_2]$

于是有：
$UΣVT=[U1,U2][Σ1000][V1TV2T]=U1Σ1V1T=AV1V1T=AU\Sigma V^T=[U_1,U_2]\begin{bmatrix}\Sigma_1&0\\0&0\end{bmatrix}\begin{bmatrix}V_1^T\\V_2^T\end{bmatrix}=U_1\Sigma_1V_1^T=AV_1V_1^T=A$

性质
V的列向量是 $ATA的特征向量，U的列向量是AAT的特征向量，Σ的奇异值是ATA和AAT的特征值的平方根。A^TA的特征向量，U的列向量是AA^T的特征向量，\Sigma的奇异值是A^TA和AA^T的特征值的平方根。$
$AV=UΣAV=U\Sigma$ ,正交矩阵有性质 $V^{-1}=V^T$
几何意义
对A矩阵的奇异值分解，V和U都是正交矩阵，其列向量构成了 $Rn\bm R^n$ 空间的标准正交基，表示在 $Rn\bm R^n$ 空间正交坐标系的旋转或反射变换， $Σ\Sigma$ 的对角元素非负，表示原始正交坐标系坐标轴的 $σ1,...,σn\sigma_1,...,\sigma_n$ 的缩放变换。
紧奇异值分解与截断奇异值分解
紧奇异值分解是与原始矩阵等秩的奇异值分解，即紧奇异值分解的对角矩阵 $Σr的秩与A，ATA的秩相等\Sigma_r的秩与A，A^TA的秩相等$ ，紧
截断奇异值分解是比原矩阵低秩的奇异值分解（类似于特征值分解）即截断奇异值分解的对角矩阵$\Sigma_r的秩比A，A^TA的秩低，实际应用中通常使用截断奇异值分解，截断奇异值分级是有损压缩。
奇异值分解是弗罗贝尼乌斯范数意义下（平方损失意义）下的矩阵最优近似。