关于sampling softmax 中重要性采样的论文阅读笔记

最新推荐文章于 2024-06-22 17:06:55 发布

wangpeng138375

最新推荐文章于 2024-06-22 17:06:55 发布

阅读量5k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：机器学习心得理论文章标签： softmax

本文链接：https://blog.youkuaiyun.com/wangpeng138375/article/details/75151064

心得同时被 3 个专栏收录

25 篇文章

订阅专栏

理论

7 篇文章

订阅专栏

机器学习

6 篇文章

订阅专栏

本文探讨了在词向量训练、神经网络语言模型及机器翻译等任务中，如何通过重要性采样来优化softmax函数的计算效率。通过数学推导，详细介绍了如何避免直接计算softmax分母，从而减少计算量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先列出参考资料：

主要是对重要性采样softmax的学习过程做一些笔记。
在词向量训练、神经网络语言模型、神经网络机器翻译等任务中，softmax函数有如下形式：

p (w | c) = exp ( h ⊤ v ' w ) \sum w i \in V exp ( h ⊤ v ' w i ) = exp ( h ⊤ v ' w ) Z ( h )

$p(w|c) = \frac{\exp(h^\top v'_w)}{\sum_{w_i \in V} \exp(h^\top v'_{w_i})}=\frac{\exp(h^\top v'_w)}{Z(h)}$
其中，h是导数层的输出，

v′wi $v'_{w_i}$ 是w对应的输出词向量（即softmax的权重矩阵，具体可参考（1））,V是词典，c是上下文。 在神经网络语言模型中，一般会把c压缩为h。
sampling softmax解决了softmax分母部分计算量大的问题。

如果损失函数采用交叉熵损失函数:

H (q, p) = - \sum x q (x) log p (x)

$H(q,p) = - \sum_x q(x) \log p(x)$
这里q是真是期望分布,例如

q=[0,…1,…,0] $q = [0, \ldots 1, \ldots, 0]$ ，p是模型输出分布，对应上面的softmax公式。
对于一个样本，可得交叉熵损失函数(这里把模型的参数统称为

θ $\color{Red}\theta$ )

J θ = - log exp ( h ⊤ v ' w ) \sum w i \in V exp ( h ⊤ v ' w i )

$J_\theta = - \: \text{log} \: \dfrac{\text{exp}({h^\top v'_{w}})}{\sum_{w_i \in V} \text{exp}({h^\top v'_{w_i}})}$
根据简单的

log x y = log x - log y

$\text{log} \: \dfrac{x}{y} = \text{log} \: x - \text{log} \: y$
得到：

J θ = - h ⊤ v' w + log \sum w i \in V exp (h ⊤ v' w i)

$J_\theta = - \: h^\top v'_{w} + \text{log} \sum_{w_i \in V} \text{exp}(h^\top v'_{w_i})$
令：

E (w) = - h ⊤ v' w

$\mathcal{E}(w)=-h^\top v'_{w}$
得到：

J θ = E (w) + log \sum w i \in V exp (- E (w i))

$J_\theta = \: \mathcal{E}(w) + \text{log} \sum_{w_i \in V} \text{exp}( - \mathcal{E}(w_i))$

对 $\color{Red}\theta$ 求梯度得：

\nabla θ J θ = \nabla θ E (w) + \nabla θ log \sum w i \in V exp (- E (w i))

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \nabla_\theta \text{log} \sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))$
根据：

\nabla x log x = 1 x

$\nabla_x\text{log} \: x=\dfrac{1}{x}$
得：

\nabla θ J θ = \nabla θ E (w) + 1 \sum w i \in V exp ( - E ( w i ) ) \nabla θ \sum w i \in V exp (- E (w i)

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \dfrac{1}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))} \nabla_\theta \sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i)$

\nabla θ J θ = \nabla θ E (w) + 1 \sum w i \in V exp ( - E ( w i ) ) \sum w i \in V \nabla θ exp (- E (w i))

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \dfrac{1}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))} \sum_{w_i \in V} \nabla_\theta \: \text{exp}(- \mathcal{E}(w_i))$
根据

∇xexp(x)=exp(x) $\nabla_x\text{exp}(x)=\text{exp}(x)$ ，继续利用求导链式法则：

\nabla θ J θ = \nabla θ E (w) + 1 \sum w i \in V exp ( - E ( w i ) ) \sum w i \in V exp (- E (w i)) \nabla θ (- E (w i))

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \dfrac{1}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))} \sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i)) \nabla_\theta (- \mathcal{E}(w_i))$

\nabla θ J θ = \nabla θ E (w) + \sum w i \in V exp ( - E ( w i ) ) \sum w i \in V exp ( - E ( w i ) ) \nabla θ (- E (w i))

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \sum_{w_i \in V} \dfrac{\text{exp}(- \mathcal{E}(w_i))}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))} \nabla_\theta (- \mathcal{E}(w_i))$
可以看到

exp(−E(wi))∑wi∈Vexp(−E(wi)) $\dfrac{\text{exp}(- \mathcal{E}(w_i))}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))}$ 就是softmax的输出，即

wi $w_i$ 的概率

P(wi) $P(w_i)$ 。
于是得到如下：

\nabla θ J θ = \nabla θ E (w) + \sum w i \in V P (w i) \nabla θ (- E (w i))

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) + \sum_{w_i \in V} P(w_i) \nabla_\theta (- \mathcal{E}(w_i))$
最终得到：

\nabla θ J θ = \nabla θ E (w) - \sum w i \in V P (w i) \nabla θ E (w i)

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) - \sum_{w_i \in V} P(w_i) \nabla_\theta \mathcal{E}(w_i)$
对于梯度公式的第二部分，可以认为是

∇θE(wi) $\nabla_\theta \mathcal{E}(w_i)$ 对于softmax输出

P(wi) $P(w_i)$ 的期望，即：

\sum w i \in V P (w i) \nabla θ E (w i) = E w i \sim P [\nabla θ E (w i)]

$\sum_{w_i \in V} P(w_i) \nabla_\theta \mathcal{E}(w_i) = \mathbb{E}_{w_i \sim P}[\nabla_\theta \mathcal{E}(w_i)]$
这就是采样要优化的部分。
根据传统的重要性采样方法，按照如下公式计算期望：

E w i \sim P [\nabla θ E (w i)] \approx 1 N \sum w i \sim Q (w) P ( w i ) Q ( w i ) \nabla θ E (w i)

$\mathbb{E}_{w_i \sim P}[\nabla_\theta \mathcal{E}(w_i)]\approx \frac{1}{N} \sum_{w_i \sim Q(w)}\frac{P(w_i)}{Q(w_i)}\nabla_\theta \mathcal{E}(w_i)$
其中N是从分布Q(我们自己定义的一个容易采样的分布)中采样的样本数，但是这种方法仍然需要计算

P(wi) $P(w_i)$ ，而

P(wi) $P(w_i)$ 的计算又需要softmax做归一化，这是我们不想看到的，所以要使用一种有偏估计的方法。

现在，让我们来观察Softmax公式（ $\dfrac{\text{exp}(- \mathcal{E}(w_i))}{\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))}$ ）的分母部分：

Z (h) = \sum w i \in V exp (- E (w i)) = M \sum w i \in V (1 M) \cdot exp (- E (w i))

$Z(h)=\sum_{w_i \in V} \text{exp}(- \mathcal{E}(w_i))=M\sum_{w_i \in V} (\frac{1}{M})\cdot \text{exp}(- \mathcal{E}(w_i))$
这样，我们可以把

∑wi∈V(1M)⋅exp(−E(wi)) $\sum_{w_i \in V} (\frac{1}{M})\cdot \text{exp}(- \mathcal{E}(w_i))$ 看出是一种期望的形式，进而可以采用采样的方法得到

Z(h) $Z(h)$ 。现在我们还是取候选分布为Q。
则：

Z (h) = Z^(h) = M N \sum w i \sim Q (w) R ^ ( w i ) exp ( - E ( w i ) ) Q ( w i ) = M N \sum w i \sim Q (w) exp ( - E ( w i ) ) M \cdot Q ( w i )

$Z(h)=\hat{Z}(h)=\frac{M}{N}\sum_{w_i \sim Q(w)}\frac{\hat{R}(w_i)\text{exp}(- \mathcal{E}(w_i))}{Q(w_i)}=\frac{M}{N}\sum_{w_i \sim Q(w)}\frac{\text{exp}(- \mathcal{E}(w_i))}{M\cdot Q(w_i)}$
上式中的

R^(wi) $\hat{R}(w_i)$ 代表概率

1M $\frac{1}{M}$ ，约去M可得：

Z^(h) = 1 N \sum w i \sim Q (w) exp ( - E ( w i ) ) Q ( w i )

$\hat{Z}(h)=\frac{1}{N}\sum_{w_i \sim Q(w)}\frac{\text{exp}(- \mathcal{E}(w_i))}{ Q(w_i)}$
到这里，我们就可以用

Z^(h) $\hat{Z}(h)$ 去近似

Z(h) $Z(h)$ 了。
现在理一下思路：
给定候选分布Q，传统采样方法需要计算P，也就是说需要计算分母Z，这是我们不想看到的。幸运的是分母Z仍然可以通过采样得到，采样Z的时候，仍然采用候选分布Q。

现在继续计算 $\nabla_\theta J_\theta$ 中系数为负的部分，即期望部分。

E w i \sim P [\nabla θ E (w i)] \approx 1 N \sum w i \sim Q (w) P ( w i ) Q ( w i ) \nabla θ E (w i) = 1 N \sum w i \sim Q (w) P ^ ( w i ) Q ( w i ) \nabla θ E (w i)

$\mathbb{E}_{w_i \sim P}[\nabla_\theta \mathcal{E}(w_i)]\approx \frac{1}{N} \sum_{w_i \sim Q(w)}\frac{P(w_i)}{Q(w_i)}\nabla_\theta \mathcal{E}(w_i)= \frac{1}{N}\sum_{w_i \sim Q(w)}\frac{\hat{P}(w_i)}{Q(w_i)}\nabla_\theta \mathcal{E}(w_i)$
其中

P^(wi) $\hat{P}(w_i)$ 代表采样方式获得的概率：

P^(w i) = exp ( - E ( w i ) ) Z ^ ( h )

$\hat{P}(w_i)=\frac{\text{exp}(- \mathcal{E}(w_i))}{\hat{Z}(h)}$
可得：

E w i \sim P [\nabla θ E (w i)] \approx 1 N \sum w i \sim Q (w) exp ( - E ( w i ) ) Q ( w i ) Z ^ ( h ) \nabla θ E (w i)

$\mathbb{E}_{w_i \sim P}[\nabla_\theta \mathcal{E}(w_i)]\approx \frac{1}{N}\sum_{w_i \sim Q(w)}\frac{\text{exp}(- \mathcal{E}(w_i))}{Q(w_i)\hat{Z}(h)}\nabla_\theta \mathcal{E}(w_i)$
现在我们就从Q分布中采样N个样本，组成集合J，最终得到：

E w i \sim P [\nabla θ E (w i)] \approx \sum w j \in J exp ( - E ( w j ) ) \nabla θ E ( w j ) / Q ( w j ) \sum w j \in J exp ( - E ( w j ) ) / Q ( w j )

$\mathbb{E}_{w_i \sim P}[\nabla_\theta \mathcal{E}(w_i)]\approx \frac{\sum_{w_j \in J}\text{exp}(- \mathcal{E}(w_j))\nabla_\theta \mathcal{E}(w_j)/Q(w_j)}{\sum_{w_j \in J}\text{exp}(- \mathcal{E}(w_j))/Q(w_j)}$

整体梯度为：

\nabla θ J θ = \nabla θ E (w) - \sum w j \in J exp ( - E ( w j ) ) \nabla θ E ( w j ) / Q ( w j ) \sum w j \in J exp ( - E ( w j ) ) / Q ( w j )

$\nabla_\theta J_\theta = \: \nabla_\theta \mathcal{E}(w) - \frac{\sum_{w_j \in J}\text{exp}(- \mathcal{E}(w_j))\nabla_\theta \mathcal{E}(w_j)/Q(w_j)}{\sum_{w_j \in J}\text{exp}(- \mathcal{E}(w_j))/Q(w_j)}$
下面给出算法步骤（来自 Quick Training of Probabilistic Neural Nets by Importance Sampling）：
这里写图片描述

OK，如果你正在使用tensorflow的Seq2Seq模型，并且正在阅读On Using Very Large Target Vocabulary for Neural Machine Translation，对于论文中的公式（10）和公式（11），本篇笔记可以给出大致思路的解释，有不完善或错误的地方，欢迎批评指正！