SVD矩阵分解

最新推荐文章于 2025-06-02 10:16:12 发布

vincent_hahaha

最新推荐文章于 2025-06-02 10:16:12 发布

阅读量420

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：线性代数机器学习

本文链接：https://blog.youkuaiyun.com/vincent_duan/article/details/118531813

机器学习专栏收录该内容

40 篇文章

订阅专栏

本文探讨了矩阵分解在处理大规模稀疏数据中的重要性。通过基变换和特征值分解，矩阵可以被简化，提取主要信息。SVD（奇异值分解）解决了非方阵的分解问题，通过选取前k个最大特征值，实现数据的降维表示，保留关键信息，降低计算复杂性。矩阵分解在电商等领域的用户商品交互数据中，有助于发现用户行为模式和推荐系统构建。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么要对矩阵进行分解

原始的矩阵表示数据最完整的信息，分解完之后，信息不就不完整了吗？为什么要做矩阵分解？

假如有一批电商数据，有一些用户购买了一些商品，假设100万用户，10万个商品。用矩阵表示则有100万*10万的维度，这是一个很大的矩阵，同时也是一个稀疏的矩阵，因为每个用户不能买所有的商品。这么庞大的矩阵中，我们也无法提取出重点信息。

因此将这个大矩阵分解成多个小矩阵相乘。

基变换

基是正交的（即内积为0，或者直观说相互垂直）,并且基是线性无关的。假设如果y轴和x轴不是正交的，也就是不是垂直，夹角小于90度，意味着y可以由x来表示，x也可以由y来表示。

当y与x垂直时，y无法表示x，x也无法表示y

我们不希望一个指标可以由另一个指标来表示。一旦可以这么表示，那么另一个指标存在的意义就不大了。

变换：数据与一个基做内积运算，结果作为第一个新的坐标分量，然后与第二个基做内积运算，结果作为第二个新坐标的分量。

特征值分解

矩阵里面有很多信息，来分一分， $\Lambda U^{-1}$ ，其中 $U$ 表示特征向量矩阵， $Λ\Lambda$ 表示特征值矩阵。 $A$ 必须是n*n的方阵，且有n个线性无关的特征向量。

这时我们就可以在对角矩阵当中找到比较大的了，他们就代表了主要信息。

SVD矩阵分解

上面提到的特征值分解不是挺好的吗？但是它被限制住了，如果矩阵的形状不是n*n的呢？而是m*n的形状呢？

这时就需要使用SVD矩阵分解了。

首先选前k个的特征值（一般前10%的特征值的和就占了总体的90%）。 $Am∗n=Um∗kΛk∗kVk∗nA_{m*n}=U_{m*k}\Lambda_{k*k}V_{k*n}$ ，这样就可以得到一个近似的矩阵，这个矩阵拥有与原矩阵差不多的信息，但是大小却少了很多。

SVD推导

前提：对于一个二维矩阵M可以找到一组标准正交基 $v_1$ 和 $v_2$ 使得 $Mv_1$ 和 $Mv_2$ 是正交的。
在这里插入图片描述
使用另一组正交基 $u_1$ 和 $u_2$ 来表示 $Mv_1$ 和 $Mv_2$ 的方向。

其长度分别为： $∣Mv1∣=σ1|Mv_1|=\sigma_1$ , $∣Mv2∣=σ2|Mv_2|=\sigma_2$ ，可得： $Mv1=σ1u1,Mv2=σ2u2Mv_1=\sigma_1u_1,Mv_2=\sigma_2u_2$

对于向量 $x$ 在这组基中的表示： $x=(v_1 · x)v_1 + (v_2·x)v_2$ ，其中 $v_1 · x)$ 表示向量的点积，点积表示投影的长度，可以通过投影到基的长度乘以基的方向来表示一个点的坐标。点积 $v \cdot x$ 也可以转换成行向量乘列向量 $v·x=v^Tx$

可得 $Mx=(v1⋅x)Mv1+(v2⋅x)Mv2，Mx=(v1⋅x)σ1u1+(v2⋅x)σ2u2Mx=(v_1·x)Mv_1 + (v_2·x)Mv_2，Mx=(v_1·x)\sigma_1u_1+(v_2·x)\sigma_2u_2$ ，从而得到： $Mx=u1σ1v1Tx+u2σ2v2Tx，M=u1σ1V1T+u2σ2v2TMx=u_1\sigma_1v_1^Tx+u_2\sigma_2v_2^Tx，M=u_1\sigma_1V_1^T+u_2\sigma_2v_2^T$ ，化简得到： $M=U∑VTM=U\sum V^T$