negative sampling负采样和nce loss

最新推荐文章于 2023-09-30 10:36:52 发布

原创

最新推荐文章于 2023-09-30 10:36:52 发布 · 1.4w 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#nce loss #negative sampling #tensorflow #word2vector #deep learning

negative sampling负采样和nce loss

一、Noise contrastive estimation（NCE）

语言模型中，在最后一层往往需要：根据上下文c，在整个语料库V中预测某个单词w的概率，一般采用softmax形式

在这里插入图片描述

其中partition function Z(c)的目的是normalize，使得p为一个概率分布。一般根据最大似然法估计上述参数，但是这个公式的计算量是巨大的，因为要遍历V中的所有单词。

此时NCE就闪亮登场了，为了避免巨大的计算量，NCE的思路是将softmax的参数估计问题转化成二分类。二分类两类样本分别是真实样本和噪声样本：正样本是由经验分布

在这里插入图片描述
生成的（即真实分布）标签D=0，负样本则是噪声由q(w)生成对应标签D=1。假设c代表上下文context，从噪声分布中提取k个噪声样本，在总样本（真实样本+噪声样本）中w代表预测的目标词。
那么（d,w）的联合概率分布如下：

在这里插入图片描述
由上面公式不难得出：在总样本中 P(w/c) = p(d=0,w/c) + p(d=1,w/c)

Tips：P指的是正负样本的整体分布，这与之前的正样本的经验分布不同

继续根据条件联合概率公式可以得出：p(d=0/w,c) = p(d=0,w/c) / p(w/c)

p(d=1/w,c)类似

即下面公式：