统计学习方法第十八章——概率潜在语义分析_概率潜在语义分析q函数-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43869610/article/details/124610105

本文详细解析了概率潜在语义分析（PLSA）中的对数似然函数，并介绍了E步计算Q函数的过程，通过拉格朗日乘子法推导出M步参数估计公式。核心内容包括似然函数的简化、Q函数的下界求解以及参数更新方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

18.2 概率潜在语义分析的算法

生成模型的对数似然函数是：
$\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)logP(w_i,d_j)\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log[\sum_{k=1}P(w_i|z_k)P(z_k|d_j)P(d_j)]\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)[logP(d_j)+log(\sum_{k=1}P(w_i|z_k)P(z_k|d_j))]\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)logP(d_j)+\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log(\sum_{k=1}P(w_i|z_k)P(z_k|d_j)) \end{aligned}$
又因为前半部分是一个常数，与模型参数无关，于是将其省去，就得到书上的似然函数：
$L=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log[\sum_{k=1}P(w_i|z_k)P(z_k|d_j)]$
E步：计算Q函数
$\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log[\sum_{k=1}P(w_i|z_k)P(z_k|d_j)]\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log[\sum_{k=1}P(z_k|w_i,d_j)\frac{P(w_i|z_k)P(z_k|d_j)}{P(z_k|w_i,d_j)}] \end{aligned}$
上式中, 由Jensen不等式:
$\log \sum_{j} \lambda_{j} y_{j} \geq \sum_{j} \lambda_{j} \log y_{j} \quad \lambda_{j} \geq 0, \sum_{j} \lambda_{j}=1$

$\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)log[\sum_{k=1}P(z_k|w_i,d_j)\frac{P(w_i|z_k)P(z_k|d_j)}{P(z_k|w_i,d_j)}]\\ &\geqslant\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)log[\frac{P(w_i|z_k)P(z_k|d_j)}{P(z_k|w_i,d_j)}] \end{aligned}$

得到L的下界：
$\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)log[\frac{P(w_i|z_k)P(z_k|d_j)}{P(z_k|w_i,d_j)}]\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)[log[P(w_i|z_k)P(z_k|d_j)]-logP(z_k|w_i,d_j)]\\ &=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)log[P(w_i|z_k)P(z_k|d_j)]-\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)logP(z_k|w_i,d_j) \end{aligned}$
又因为在极大化Q函数时，对 $P\left(w_{i} \mid z_{k}\right) \text { 和 } P\left(z_{k} \mid d_{j}\right) \text { 求偏导数 }$ ，后半部分偏导数为0，所以可以直接在这里将其省去，当然也可以留着，反正后面求导都会为0。因此
$Q=\sum_{i=1}^M\sum_{j=1}^Nn(w_i,d_j)\sum_{k=1}^KP(z_k|w_i,d_j)log[P(w_i|z_k)P(z_k|d_j)]$
就得到了书上的 $Q′Q^{\prime}$ 函数。其中
$P\left(z_{k} \mid w_{i}, d_{j}\right)=\frac{P\left(w_{i} \mid z_{k}\right) P\left(z_{k} \mid d_{j}\right)}{\sum_{k=1}^{K} P\left(w_{i} \mid z_{k}\right) P\left(z_{k} \mid d_{j}\right)}$
M步：极大化Q函数

因为变量 $P(wi∣zk),P(zk∣dj)P\left(w_{i} \mid z_{k}\right), P\left(z_{k} \mid d_{j}\right)$ 形成概率分布, 满足约束条件
$\begin{aligned} &\sum_{i=1}^{M} P\left(w_{i} \mid z_{k}\right)=1, \quad k=1,2, \cdots, K \\ &\sum_{k=1}^{K} P\left(z_{k} \mid d_{j}\right)=1, \quad j=1,2, \cdots, N \end{aligned}$
应用拉格朗日法, 引入拉格朗日乘子 $τk\tau_{k}$ 和 $ρj\rho_{j}$ , 定义拉格朗日函数 $Λ\Lambda$
$\Lambda=Q^{\prime}+\sum_{k=1}^{K} \tau_{k}\left(1-\sum_{i=1}^{M} P\left(w_{i} \mid z_{k}\right)\right)+\sum_{j=1}^{N} \rho_{j}\left(1-\sum_{k=1}^{K} P\left(z_{k} \mid d_{j}\right)\right)$
将拉格朗日函数 $Λ\Lambda$ 分别对 $P(wi∣zk)P\left(w_{i} \mid z_{k}\right)$ 和 $P(zk∣dj)P\left(z_{k} \mid d_{j}\right)$ 求偏导数, 并令其等于 0 , 得到下面的方程组
$\begin{aligned} &\sum_{j=1}^{N} n\left(w_{i}, d_{j}\right) P\left(z_{k} \mid w_{i}, d_{j}\right)-\tau_{k} P\left(w_{i} \mid z_{k}\right)=0, \quad i=1,2, \cdots, M ; \quad k=1,2, \cdots, K\\ &\sum_{i=1}^{M} n\left(w_{i}, d_{j}\right) P\left(z_{k} \mid w_{i}, d_{j}\right)-\rho_{j} P\left(z_{k} \mid d_{j}\right)=0, \quad j=1,2, \cdots, N ; \quad k=1,2, \cdots, K \end{aligned}$
现求解 $τk和ρj\tau_k和\rho_j$ ，两边分别同时对i和k求和得到：
$\begin{aligned} &\sum_{i=1}^M\sum_{i=1}^Mn(w_i,d_j)P(z_k|w_j,d_j)=\sum_{i=1}^M\tau_kP(w_i|z_k)=\tau_k\\ &\sum_{k=1}^K\sum_{i=1}^Mn(w_i,d_j)P(z_k|w_i,d_j)=\sum_{k=1}^K\rho_jP(z_k|d_j)=\rho_j \end{aligned}$
于是得到：
$\begin{aligned} \rho_j&=\sum_{k=1}^K\sum_{i=1}^Mn(w_i,d_j)P(z_k|w_j,d_j)=\sum_{i=1}^Mn(w_i,d_j)=n(d_j)\\ \tau_k&=\sum_{j=1}^N\sum_{i=1}^Mn(w_i,d_j)P(z_k|w_i,d_j) \end{aligned}$

将求得的 $τk和ρj\tau_k和\rho_j$ 代回方程组得参数估计公式：
$\begin{aligned} &P\left(w_{i} \mid z_{k}\right)=\frac{\sum_{j=1}^{N} n\left(w_{i}, d_{j}\right) P\left(z_{k} \mid w_{i}, d_{j}\right)}{\sum_{m=1}^{M} \sum_{j=1}^{N} n\left(w_{m}, d_{j}\right) P\left(z_{k} \mid w_{m}, d_{j}\right)}\\ &P\left(z_{k} \mid d_{j}\right)=\frac{\sum_{i=1}^{M} n\left(w_{i}, d_{j}\right) P\left(z_{k} \mid w_{i}, d_{j}\right)}{n\left(d_{j}\right)} \end{aligned}$