潜在语义分析（LSA）详解

最新推荐文章于 2025-04-06 07:09:28 发布

zhong_ddbb

最新推荐文章于 2025-04-06 07:09:28 发布

阅读量5.4k

点赞数 7

分类专栏：自然语言处理机器学习基础文章标签：算法机器学习 nlp 自然语言处理

本文链接：https://blog.youkuaiyun.com/zhong_ddbb/article/details/106311160

版权

机器学习基础同时被 2 个专栏收录

31 篇文章

订阅专栏

自然语言处理

11 篇文章

订阅专栏

文章目录

单词向量空间
话题向量空间
算法实现

潜在语义分析（latent semantic analysis, LSA）是一种无监督方法，主要用于文本的话题分析，其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析是非概率的话题分析方法，将文本集合表示为 单词-文本矩阵，对该矩阵进行进行奇异值分解，从而得到 话题向量空间和 文本在话题向量空间中的表示。也可以使用矩阵的因子分解方法进行分解。

单词向量空间

基本想法：给定一个文本，用一个向量表示该文本的”语义“，向量的每一维对应一个单词，其数值为该单词在该文本中出现的频数或权值。

给定 $n$ 个文本集合 $\{d_1,d_2,\ldots d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $\{w_1,w_2,\ldots,w_m\}$ 。单词-文本矩阵如下：
$\left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right]$

每个列向量对应一个文本，每一行对应单词 $w_i$ 。
元素 $x_{ij}$ 代表单词 $w_i$ 在文本 $d_j$ 中出现的频数或者权值。权值采用单词词频—逆文本频率（TF—IDF）表示，其定义是：
$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{\mathrm{d}f}{\mathrm{d}f_i}\\ i=1,2,\cdots,m;\\ j=1,2,\cdots,n$
式中： $tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数， $tf_{.j}$ 是文本 $d_j$ 中出现所有单词的频数之和， $df_i$ 是含有单词 $w_i$ 的文本数， $d f$ 是文本集合D的全部文本集。一个单词在一个文本中出现的频数越高，这个单词在这个文本中的重要度就越高，即 $\frac{tf_{ij}}{tf_{\cdot j}}$ 越大；一个单词在整个文本集合中出现的文本数越少，这个单词就越能表示其所在文本的特点，重要度就越高，即 $\log\frac{\mathrm{d}f}{\mathrm{d}f_i}$ 越大；一个单词在一个文本的TF-IDF是两种重要度的积，表示综合重要度。

单词-文本矩阵的每个列向量对应一个文本，两个列向量之间的的余弦相似度表示对应文本之间的语义相似度。

缺点：单词向量通常是稀疏的。没有考虑到在自然语言处理中的一词多义以及多词一义，所以基于词向量的相似度计算不精确。

话题向量空间

（1）话题向量空间

两个文本的语义相似度可以体现在两者的话题相似度上，一个文本有若干个话题。

给定 $n$ 个文本集合 $\{d_1,d_2,\ldots d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $\{w_1,w_2,\ldots,w_m\}$ 。单词-文本矩阵如下：
$X=\left[\begin{matrix}x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn}\end{matrix}\right]$

假设所有文本共含有 $k$ 个话题，单词—话题矩阵如下：
$T=\left[ \begin{matrix} &t_{11} &t_{12} &\cdots &t_{1k} \\ &t_{21} &t_{22} &\cdots &t_{2k} \\ &\vdots &\vdots & &\vdots \\ &t_{m1} &t_{12} &\cdots &t_{mk} \\ \end{matrix} \right]$
每个列向量对应一个话题，每一行对应单词 $w_i$ 。

元素 $t_{il}$ 代表单词 $w_i$ 在话题 $t_l$ 中出现的权值。

（2）文本在话题向量空间中的表示

话题—文本矩阵：
$Y=\left[ \begin{matrix} &y_{11} &y_{12} &\cdots &y_{1n} \\ &y_{21} &y_{22} &\cdots &y_{2n} \\ &\vdots &\vdots & &\vdots \\ &y_{k1} &y_{k2} &\cdots &y_{kn} \\ \end{matrix} \right]$
每个列向量对应一个文本，每一行对应话题 $t_i$ 。

元素 $y_{lj}$ 代表文本 $d_j$ 在话题 $t_l$ 中出现的权值。

（3）从单词向量空间到话题向量空间的线性变换

单词—文本矩阵 $X$ 可以近似的表示为单词—话题矩阵 $T$ 与话题—文本矩阵 $Y$ 的乘积形式这就是潜在语义分析：
$\approx TY$
如下图所示：

在这里插入图片描述

LSA 是将文本在单词向量空间的表示通过线性变换转换为在话题向量空间的表示，如下图所示：

在这里插入图片描述

算法实现

矩阵奇异值(SVD)分解算法

文本集合 $D=\{d_1, d_2,\cdots,d_n\}$ ，单词集合 $W=\{w_1,w_2,\cdots,w_m\}$

单词-文本矩阵 $X_{m\times n}$ ：
$X=\left[ \begin{matrix} &x_{11} &x_{12} &\cdots &x_{1n} \\ &x_{21} &x_{22} &\cdots &x_{2n} \\ &\vdots &\vdots & &\vdots\\ &x_{m1} &x_{m2} &\cdots &x_{mn} \\ \end{matrix} \right]$
截断奇异值分解
$X\thickapprox U_k{\Sigma_k}V_k^\mathrm{T} \bf =\left[ \begin{matrix} u_1 &u_2 &\cdots &u_k \end{matrix} \right] \left[ \begin{matrix} \sigma_1 &0 &0 &0\\ 0 &\sigma_2 &0 &0 \\ 0 &0 &\ddots &0\\ 0 &0 &0 &\sigma_k \end{matrix} \right] \left[ \begin{matrix} v_1^\mathrm{T}\\ v_2^\mathrm{T}\\ \vdots\\ v_k^\mathrm{T} \end{matrix} \right]$
这中间 $k\le n \le m$ 这里假设了文档数量要比单词数量少。

其中：

（1） $U_k$ 是 $m\times k$ 矩阵，前 $k$ 个相互正交的左奇异向量， $U_k$ 每一列 $u_l$ 表示一个话题， $k$ 个话题张成一个子空间，称为话题向量空间：
$U_k=\left[\begin{matrix}u_1&u_2&\cdots&u_k\end{matrix}\right]$
（2） $\Sigma$ 是 $k$ 阶方阵，前 $k$ 个最大奇异值； $V_k$ 是 $n\times k$ 矩阵，前 $k$ 个相互正交的右奇异向量

。这两个矩阵的乘积，则对应了话题-文本矩阵(文本的话题空间向量表示)。所以，矩阵 $X$ 的第 $j$ 列向量 $x_j$ 满足：
$\begin{aligned} x_j&\thickapprox U_k(\Sigma_k V_k^\mathrm{T})_j\\ &= \left[ \begin{matrix} u_1& u_2& \cdots& u_k \end{matrix} \right] \left[ \begin{matrix} \sigma_1v_{j1}\\ \sigma_2v_{j2}\\ \vdots\\ \sigma_kv_{jk} \end{matrix} \right] \\ &=\sum_{l=1}^k\sigma_lv_{jl}u_l,j=1,2,\cdots,n \end{aligned}$

式中： $(\Sigma_k V_k^\mathrm{T})_j$ 是矩阵 $(\Sigma_k V_k^\mathrm{T})$ 的第 $j$ 列向量。每一个列向量：
$\left[ \begin{matrix} \sigma_1v_{11}\\ \sigma_2v_{12}\\ \vdots\\ \sigma_kv_{1k} \end{matrix} \right] , \left[ \begin{matrix} \sigma_1v_{21}\\ \sigma_2v_{22}\\ \vdots\\ \sigma_kv_{2k} \end{matrix} \right], \ldots, \left[ \begin{matrix} \sigma_1v_{n1}\\ \sigma_2v_{n2}\\ \vdots\\ \sigma_kv_{nk} \end{matrix} \right]$
是文本在话题向量空间的表示。

所以，通过矩阵的SVD分解进行潜在语义分析：
$X\approx U_k{\Sigma_k}V_k^\mathrm{T} =U_k({\Sigma_k}V_k^\mathrm{T})$
从而得到了话题空间 $U_k$ ，以及文本在话题空间的表示 $({\Sigma_k}V_k^\mathrm{T})$ 。

非负矩阵(NMF)分解算法

基本思想

对单词—文本矩阵进行非负矩阵分解，将其左矩阵作为话题向量空间，将其右矩阵作为文本在话题向量空间的表示。

设单词—文本矩阵是 $m\times n$ 的非负矩阵 $X$ ，文本集合包含 $k$ 个话题，对 $X$ 进行非负矩阵分解。即求 $m\times k$ 的非负矩阵和 $k\times n$ 的非负矩阵满足
$X\thickapprox WH$

其中： $W=\left[\begin{matrix}w_1& w_2& \cdots& w_k\end{matrix}\right]$ 表示话题向量空间， $w_1, w_2, \cdots, w_k$ 表示文本集合的 $k$ 个话题。
$H=\left[\begin{matrix}h_1& h_2& \cdots& h_k\end{matrix}\right]$ 表示文本在话题向量空间的表示， $h_1, h_2, \cdots, h_k$ 表示文本集合的 $n$ 个文本。

非负矩阵分解有很直观的解释，话题向量和文本向量都非负，对应着“伪概率分布”，向量的线性组合表示局部构成总体。

损失函数

（1）平方损失

目标函数：
$\min\limits_{W,H}||X - WH||^2 \\ s.t. \quad W,H \ge 0$

（2）散度损失函数

首先看看散度的定义：
$\sum_{i,j} \left(a_{ij}\log\frac{a_{ij}}{b_{ij}} - a_{ij} + b_{ij}\right)$
称为非负矩阵A和B的散度损失函数。其下界时０，当且仅当A＝Ｂ时达到下届。

当 $\sum_{ij}a_{ij} = \sum_{ij}b_{ij}=1$ 时，散度损失函数退化为KL散度或相对熵。

所以右散度损失函数为：
$\min \limits_{W,H} D\left(X||WH\right) \\ s.t. \quad W,H \ge 0$

算法

（1）平方损失函数更新法则

$J(W,H)=\frac{1}{2}\|X-WH\|^2=\frac{1}{2}\sum_{i,j}[X_{ij}-(WH)_{ij}]^2$

采用梯度下降法求解，这里用到了矩阵求导
$\begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}}&=-\sum_j[X_{ij}-(WH)_{ij}]H_{lj}=-[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ \frac{\partial J(W,H)}{\partial H_{lj}}&=-[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}] \end{aligned}$
根据更新规则有
$W_{il}=W_{il}+\lambda_{il}[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ H_{lj}=H_{lj}+\mu_{lj}[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}]\\ \lambda_{il}=\frac{W_{il}}{(WHH^\mathrm{T})_{il}}\\ \mu_{lj}=\frac{H_{lj}}{(W^\mathrm{T}WH)_{lj}}$
得到最终的乘法更新法则：
$H_{lj}\leftarrow H_{lj}\frac{(W^\mathrm{T}X)_{lj}}{(W^\mathrm{T}WH)_{lj}}\\ W_{il}\leftarrow W_{il}\frac{(XH^\mathrm{T})_{il}}{(WHH^\mathrm{T})_{il}}$

（2）散度损失函数的更新法则

散度乘法更新法则如下：
$H_{lj}\leftarrow H_{lj}\frac{\sum\limits_i[W_{il}X_{ij}/(WH)_{ij}]}{\sum\limits_iW_{il}}\\ W_{il}\leftarrow W_{il}\frac{\sum\limits_j[H_{lj}X_{ij}/(WH)_{ij}]}{\sum\limits_jH_{lj}}$

算法实现

具体算法如下：

输入：单词-文本矩阵 $X\ge 0$ ，文本集合的话题个数 $k$ ，最大迭代次数 $t$ ；
输出：话题矩阵 $W$ ，文本表示矩阵 $H$

初始化
$W\ge 0$ ，并对 $W$ 的每一列数据归一化
$H\ge 0$
迭代
对迭代次数从 $1$ 到 $t$ 执行下列步骤：
a. 更新 $W$ 的元素，每次迭代对 $W$ 的列向量归一化，使基向量为单位向量。
b. 更新 $H$ 的元素。