矩阵分解SVD和NMF

最新推荐文章于 2025-07-02 17:48:43 发布

winycg

最新推荐文章于 2025-07-02 17:48:43 发布

阅读量4.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： python机器学习

本文链接：https://blog.youkuaiyun.com/winycg/article/details/83005881

python机器学习专栏收录该内容

37 篇文章

订阅专栏

矩阵的秩

对于一个 $\times N$ 的矩阵A，其秩R(A)为线性无关的行向量（列向量）的数量。在空间中，秩表示矩阵的行向量或列向量所张成的空间的维度。
比如有矩阵并化为行最简矩阵： $\begin{bmatrix} 1 &2 &1 & -2\\ 2& 3& 0& -1\\ 1& -1& -5&7 \end{bmatrix} \sim \begin{bmatrix} 1 &0 &-3 & 4\\ 0& 1& 2& -3\\ 0& 0& 0&0 \end{bmatrix}$
所以上述的矩阵秩为2，表示矩阵中的所有向量都可以由 $\begin{bmatrix} 1\\ 0\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0\\ 1\\ 0 \end{bmatrix}$ 线性表示，相当于矩阵张成了二维的空间。
对于 $\begin{bmatrix} 1 &1 &0 & 2\\ -1& -1& 0& -2\\ \end{bmatrix}$ ，按行看，行向量在4维空间中关于原点对称；从列来看，列向量在2维空间中4个点位于同一条直线。所以该矩阵只张成了一个1维的空间，所以秩为1，列向量都可以由 $\begin{bmatrix} 1 \\ -1\\ \end{bmatrix}$ 线性表示。
(1)行秩等于列秩，所以矩阵的秩不会超过行向量或列向量的行数和列数，所以有关系： $R(A)\leq \min(M,N)$
(2) $R(AB)\leq \min(R(A),R(B))$
两个不同秩的矩阵相乘，得到的矩阵的秩不会超过两者秩的最小值。
比如： $\begin{bmatrix} 1 &0 \\ 0& 0\\ \end{bmatrix}\begin{bmatrix} 1 &0&0\\ 0& 1&0\\ \end{bmatrix}=\begin{bmatrix} 1 &0 &0 \\ 0& 0& 0\\ \end{bmatrix}$
因为多余的维度会被乘0而消失，当然秩也不一定会等于 $\min(R(A),R(B))$ ，因为可能相乘的时候有数的位置不一定对应有数的位置，导致都变为0，使得秩下降。

特征值和奇异值

参考链接：https://blog.youkuaiyun.com/qq_36653505/article/details/82052593
特征值： 针对的是 $n$ 阶方阵。设A是n阶方阵，如果存在 λ 和n维非零向量x，使 $Ax=\lambda x$ ，则 λ 称为方阵A的一个特征值，x为方阵A对应于或属于特征值 λ 的一个特征向量。从定义上来看，对特征向量 $x$ 进行 $A$ 变换实质上是对 $x$ 进行缩放，缩放因子为 $\lambda$ ，所以 $x$ 的方向也不变。一个变换方阵的所有特征向量组成了这个变换矩阵的一组基。N个特征向量就是N个标准正交基，而特征值的模则代表矩阵在每个基上的投影长度（ $||A||\cos<A,x>=\frac{Ax}{||x||}=Ax$ ）。特征值越大，说明矩阵在对应的特征向量上的方差越大，功率越大，信息量越多。特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，所有向量组内的其他的向量都可以由特征向量线性组合得到。
奇异值：
特征值及特征值分解都是针对方阵而言，但是大多数矩阵都不是方阵，奇异值相当于方阵中的特征值，奇异值分解相当于方阵中的特征值分解。此时将 $A$ 与其转置相乘 $A^{T}A$ 将会得到一个方阵，再求特征值。

SVD分解

MIT公开课视频：http://open.163.com/movie/2010/11/1/G/M6V0BQC4M_M6V2B5R1G.html
参考博客：https://blog.youkuaiyun.com/u010099080/article/details/68060274
SVD(singular value decompsition),描述：
输入：矩阵 $D_{M\times N}=(\rm \mathbf{{x}_{1},x_{2},...,x_{n}),x_{i}}\in R^{M}$
$D=\sum_{k=1}^{p}\sigma_{k} \rm \mathbf {u_{k} v_{k}^{T}}=U_{M\times M}\Sigma_{M\times N} V^{T}_{N\times N}$
其中 $\Sigma$ 为对角矩阵，对角线上的值为矩阵 $D_{M\times N}$ 特征值的平方根(eigenvalues)，也就是奇异值（singular values），表示此维度的方差。 $\rm \mathbf {u_{k} 和v_{k}^{T}}$ 为 $\sigma_{k}$ 对应的左奇异向量（left-singular vectors）和右奇异向量（left-singular vectors）。其中 $U 和 V$ 均为正交阵（列向量都是单位向量且两两正交（垂直））。
SVD的求解：
$U$ 的列由 $AA^{T}$ 的单位化过的特征向量构成
$V$ 的列由 $A^{T}A$ 的单位化过的特征向量构成
$\Sigma$ 的对角元素来源于 $AA^{T}$ 和 $A^{T}A$ 的平方根，从大到小排序选取 $min{(M,N)}$ 个特征值的平方根作为对角线。。
对于矩阵 $D=\begin{bmatrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \end{bmatrix}$ ,对应的SVD分解为：
在这里插入图片描述
python实现：

import numpy as np
A = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
print(np.linalg.svd(A))

左特征向量 $U$ 的意义：
$U$ 的每一列对应一个方向（成分），不同列对应的方向相互垂直。
将 $\Sigma$ 中的特征值从大到小排序，同时 $U (和 V)$ 中的列 $\rm \mathbf {u_{k} (和行v_{k})}$ 也会相应调整。其中 $\rm \mathbf {u_{1}}$ 代表方差最大的方向， $\rm \mathbf {u_{2}}$ 代表与 $\rm \mathbf {u_{1}}$ 垂直的方差最大的方向， $\rm \mathbf {u_{3}}$ 代表与 $\rm \mathbf {u_{1}}$ 和 $\rm \mathbf {u_{2}}$ 垂直的方差最大的方向。
在这里插入图片描述
以词项-文档关联矩阵为例，矩阵D：每一个文档由所有的M个单词进行表示，每一个维度表示此单词是否在文档中出现。

$\rm \mathbf {u_{i}}$ 为M维向量，M维中的每一维表示一个单词。 $\rm \mathbf {u_{1}},\rm \mathbf {u_{2}},...,\rm \mathbf {u_{R}}$ 组成了一个R维的空间，所有单词在坐标系上张成了一个空间， $\rm \mathbf {u_{1}}$ 表示方差最大的方向。
右特征向量 $\rm \mathbf {V}$ 意义：
从另一种角度看矩阵D，每一个单词可由N个文档表示，每一个维度表示是否出现该单词。 $\rm \mathbf {v_{i}}$ 为N维向量，N维中的每个维度表示一个文档。 $\rm \mathbf {v_{1}}$ 表示所有文档向量张成的空间中，方差最大的方向。

LSI:SVD在文本数据上的应用

LSI(latent semantic indexing)隐性语义索引，是常用的文本分析话题模型。SVD分解后的 $K$ 为话题数目。假设词项-文档矩阵为如下：
在这里插入图片描述
为了简单起见，采用布尔矩阵，一般可使用td-idf值。
矩阵 $U$ :

列向量给出的是不同的主题，比如政治，体育，经济等。 $u_{ij}$ 表示词项 $i$ 和第 $j$ 个主题的相关度。
奇异值矩阵：

奇异值度量的是主题的重要性。可以通过舍弃较小的奇异值从而删去重要性较小的语义，达到降维的目的。
矩阵 $V$
在这里插入图片描述
行向量给出的是不同的主题。 $v_{ij}$ 表示文档 $i$ 和第 $j$ 个主题的相关度。
将主题压缩到2维， $C_{2}=U\Sigma_{2}V^{T}$ 。然后比较 $C$ 和 $C_{2}$ .

由 $C\Rightarrow C2$ ,矩阵的秩由5变为2，所以 $C_{2}$ 看作是 $C$ 的低秩近似。在原始的 $C$ 中，'boat’和‘ship’没有余弦相似度，在 $C_{2}$ 中，'boat’和‘ship’具有较高的相似度。低秩近似后，重要主题信息被保留，一些枝节信息被删除。枝节信息可能是噪声，也可能是使得本来应该相似的对象不相似的细节信息。比如鲜红的花朵和红黑的花朵，把颜色信息去掉后更容易看到相似性。
优点： 数学优美，有效
缺点： 低秩矩阵和 $U$ 和 $V$ 中有负值，不好理解；特征向量两两正交，计算难度大。

NMF矩阵分解(nonnegative matrix factorization)

$V\approx WH^{T}$
其中原始矩阵 $V$ 的值非负，输出矩阵的 $W$ 和 $H$ 的值也是非负的，且不再要求是非负矩阵。求解 $W H$ 的欧式距离优化目标为：
$\max_{W,H}\frac{1}{2}||V-WH^{T}||_{2}^{2}=\sum_{i=1}^{m}\sum_{j=1}^{n}(V_{ij}-\bm{w}_{i}\bm{h}_{j})^{2}\\ s.b. \ W_{ik}\geq0,H_{kj}\geq0, \forall i,k,j$
上述目标函数是非凸的，无全局最优解。有2个未知数，进行交替优化，在固定 $W$ (或 $H$ )后，目标函数对 $H$ (或 $W$ )是凸函数。所以采用如下的优化策略：(1)随机对 $W$ 赋值。(2)固定 $W$ ,最优化 $H$ 。(3)固定 $H$ ,最优化 $W$ 。(4)重复(2)(3)，直至收敛。
采用梯度下降优化：
$w_{ik}\leftarrow w_{ik}-\mu_{ik}\frac{\partial J}{\partial w_{ik}}=w_{ik}-\mu_{ik}[-(V-WH)H^{T}]_{ik} \\ h_{kj}\leftarrow h_{kj}-\eta_{kj}\frac{\partial J}{\partial h_{kj}}=h_{kj}-\eta_{kj}[-W^{T}(V-WH)]_{kj}$
直接使用梯度下降，不能保证非负，通过修改学习率将梯度下降变为乘法算法。令：
$\mu_{ik}=\frac{w_{ik}}{[WHH^{T}]_{ik}}, \eta_{kj}=\frac{h_{kj}}{[W^{T}WH]_{kj}}$
梯度下降变为乘法算法：
$w_{ik}\leftarrow w_{ik}\frac{[VH^{T}]_{ik}}{[WHH^{T}]_{ik}} \\ h_{kj}\leftarrow h_{kj}\frac{[W^{T}V]_{kj}}{[W^{T}WH]_{kj}}$
此时每一次迭代，只要 $W$ 和 $H$ 为非负，迭代之后的 $W$ 和 $H$ 也为非负。最终得到的 $W$ 和 $H$ 为非负。

NMF用于词项-文档主题模型
在这里插入图片描述
对于词项文档矩阵 $V_{i\times j}$ ，通常的值为td-idf。将其分解后，分别为 $W_{i\times k}$ 和 $H_{k\times j}$ ，其中 $k$ 为隐含的主题数目。 $W_{ik}$ 表示第 $i$ 个词与第 $k$ 个主题的相关度， $H_{kj}$ 表示第 $k$ 个主题与第 $j$ 个文档的相关度

import numpy as np
V = np.array(
    [[5, 5, 3, 0, 5, 5],
     [5, 0, 0, 0, 4, 4],
     [0, 3, 0, 5, 4, 5],
     [5, 4, 3, 3, 5, 5]])
from sklearn.decomposition import NMF
model = NMF(n_components=2)
W = model.fit_transform(V)
H = model.components_

# 利用NMF分解的结果重构V
print(W.dot(H))

[[5.80643355 3.49158155 2.43565648 0.80514285 5.16417069 5.09095253]
 [4.26759859 2.19132302 1.73562676 0.         3.36296649 3.20554893]
 [0.02481246 3.29247521 0.48708792 5.17675147 3.80380437 4.70921875]
 [4.66621253 3.87135359 2.11231399 2.32870172 5.37938527 5.61496605]]