word_embedding的负采样算法,Negative Sampling 模型

NegativeSampling与CBOW详解
本文介绍了NegativeSampling模型中的CBOW和Skip-gram原理及其相对于Hierarchicalsoftmax模型的优势。通过探讨NegativeSampling中如何生成负采样集合,以及CBOW的工作方式,加深了读者对词向量训练的理解。

Negative Sampling 模型的CBOW和Skip-gram的原理。它相对于Hierarchical softmax 模型来说,不再采用huffman树,这样可以大幅提高性能。
一、Negative Sampling
在负采样中,对于给定的词w,如何生成它的负采样集合NEG(w)呢?已知一个词w,它的上下文是context(w),那么词w就是一个正例,其他词就是一个负例。但是负例样本太多了,我们怎么去选取呢?在语料库C中,各个词出现的频率是不一样的,我们采样的时候要求高频词选中的概率较大,而低频词选中的概率较小。这就是一个带权采样的问题。设词典D中的每一个词w对应线段的一个长度:
任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rPNRSkm8-1573128025228)(https://img-blog.youkuaiyun.com/20171208112620332?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSEhUTkFO/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)]
counter就是w的词频。
于是我们将该线段公平地分配了:
这里写图片描述

接下来我们只要生成一个0-1之间的随机数,看看落到哪个区间,就能采样到该区间对应的单词了,很公平。

但怎么根据小数找区间呢?速度慢可不行。

word2vec用的是一种查表的方式,将上述线段标上M个“刻度”,刻度之间的间隔是相等的,即1/M:
这里写图片描述
接着我们就不生成0-1之间的随机数了,我们生成0-M之间的整数,去这个刻度尺上一查就能抽中一个单词了。

在word2vec中,该“刻度尺”对应着table数组。具体实现时,对词频取了0.75次幂:

这里写图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k0YuiwU3-1573128025232)(https://img-blog.youkuaiyun.com/20171208113209310?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSEhUTkFO/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)]
这个幂实际上是一种“平滑”策略,能够让低频词多一些出场机会,高频词贡献一些出场机会,劫富济贫。

二、CBOW

这里写图片描述
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1P6s1W4b-1573128025233)(https://img-blog.youkuaiyun.com/20171208114214219?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSEhUTkFO/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)]
这里写图片描述
这里写图片描述

三、损失函数
NCE损失函数表示如下:
Jθ=−∑w∈V(log⁡P(y=1∣x)+∑i=1klog⁡P(y=0∣x(w(i))))J_\theta = - \sum\limits_{w \in V} {\left( {\log P\left( {y = 1|x} \right) + \sum\limits_{i = 1}^k {\log P\left( {y = 0|x^{\left( {w^{\left( i \right)} } \right)} } \right)} } \right)}Jθ=wV(logP(y=1x)+i=1klogP(y=0x(w(i))))
该损失函数计算上下文与目标单词之间的点积,采集每一个正样本的同时采集k个负样本。公式的第一项最小化正样本的损失,第二项最大化负样本的损失。现在如果将负样本作为第一项的变量输入,则损失函数结果应该很大。

参考文献:
http://www.cnblogs.com/neopenx/p/4571996.html

微信号
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT界的小小小学生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值