word2vec_word2vec的词向量可以较好地表达不同词之间的相似和类比关系-优快云博客

本文介绍了将词编码为向量的word2vec模型。在其之前有词袋模型和n - gram，但存在不足。word2vec包含跳字模型和连续词模型，以及负采样和层序softmax两种训练方法。文中详细阐述了负采样将多分类转二分类的原理，还介绍了层次softmax用哈夫曼树计算概率的方式，并给出相关代码和参考资料。

背景

显然，这是将词编码为向量的模型。在这个模型之前，有词袋模型，但是词袋模型没有考虑语法和语序的问题。
2013 年，Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型：跳字模型（skip-gram）和连续词模型（continuous bag of words，简称 CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序 softmax（hierarchical softmax）。值得一提的是，word2vec 词向量可以较好地表达不同词之间的相似度和类比关系。

模型

案例如下：
两个句子：

I like to do it. I like you.

我们建立词袋

[I, like, to, do, it, you]

然后按照每个句子中词的出现次数，我们将不同的句子表示为两个向量。

[2,2,1,1,1,0] [2,2,0,0,0,1]

但是显然这样做事不合理的, 因为它不可以反应出序列的连续性。
在词袋模型之后，有n-gram。n-gram依据贝叶斯概率和大数定律，假设有矩阵 $W$ , 句子有T个词组成 $,wT{w_1,w_2,\cdots, w_i,\cdots,w_T}$ 组成，则组成该句子的概率为：
$p\left( {w_1^T} \right) = p\left( {{w_1},{w_2}, \cdots ,{w_T}} \right)$
$w_1^T$ 表示第1到第T个词。使用贝叶斯公式，该句子可以被表示为：
$p\left(w_{1}^{T}\right)=p\left(w_{1}\right) \cdot p\left(w_{2} \mid w_{1}\right) \cdot p\left(w_{3} \mid w_{1}^{2}\right) \cdots p\left(w_{T} \mid w_{1}^{T-1}\right)$
通过上式可得：
$p\left(w_{i} \mid w_{1}^{i-1}\right)=\frac{p\left(w_{1}^{i}\right)}{p\left(w_{1}^{i-1}\right)}$
依据大数定律（当实验次数足够多的情况下，频数等于概率），所以使用频数代替概率，得：
$p\left(w_{i} \mid w_{1}^{i-1}\right)=\frac{N\left(w_{1}^{i}\right)}{N\left(w_{1}^{i-1}\right)}$
考虑到时间复杂度，所以假设一个词的出现仅仅与前面的那个词有关系。
$p\left(w_{i} \mid w_{1}^{i-1}\right) \approx p\left(w_{i} \mid w_{i-n+1}^{i-1}\right) \approx \frac{N\left(w_{i-n+1}^{j}\right)}{N\left(w_{i-n+1}^{i-1}\right)}$

word2vec-负采样

word2vec模型来自于Google2013年推出word vector工具包，理论来源于Tomas Mikolov的两篇论文。word2vec包含CBOW和skip-gram模型。skip-gram依据当前词推测上下文的词，CBOW通过上下文的词来推测当前词。可以使用多分类+交叉熵损失函数来求最大概率。

https://blog.youkuaiyun.com/weixin_41843918/article/details/90312339(skip-gram模型讲的很详细，包括skip-gram的损失函数)

skip-gram损失函数:
中心词在词典中索引为 $c$ , 背景词在词典中索引为 $o$ ，给定中心词生成背景词的条件概率。
$P\left(w_{o} \mid w_{c}\right)=\frac{\exp \left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}$
为了便于优化，所以取 $l o g$ , 然后得到下式子：
$\log P\left(w_{o} \mid w_{c}\right)=\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}-\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)\right)$

skip-gram的训练。例如一句话：
“The dog barked at the mailman”。
选择“dog”作为输入词，后使用skip_window参数。skip_window=2，最终获得的窗口词为[‘The’,‘dog’,‘barked’,‘at’]。num_skips=2表示选择两个不同的词作为输出词。所以得到两组形式的训练数据，即（‘dog’,‘The’ ），（‘dog’, ‘barked’）

为什么进行负采样：
虽然进行了滑窗采样，但是由于计算量大，我们不可能计算所有都正确的label（所有正确的label包含了所有词）。

负采样：
NCE Loss: Noise Contrastive Estimation 噪声对比估计
将多分类问题转换为二分类问题，计算softmax的时候类数量太多（word2vec），softmax需要对每一个class预测出probability, 那么当类别数非常大时，这个量就比较大。用概率表示，将之前的问题 $p (y ∣ x)$ 变为 $p (x, y)$ 计算 $x$ 和 $y$ 同时存在的概率。但是训练和测试不一样，测试时需要所有类的可能性，在所有可能的结果中做选择。

负采样的核心思想：计算真实目标对的得分，再加一些噪声。要注意的一点是，一个单词被选作负样本的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。一个单词的负采样概率越大，那么它在这个表中出现的次数就越多，它被选中的概率就越大。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative 
words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我
们上面的例子中，这个单词指的是”quick“）。

下面的损失函数在这篇论文中：
NIPS-2013-distributed-representations-of-words-and-phrases-and-their-compositionality-Paper

https://zhuanlan.zhihu.com/p/39684349

$J(\theta)=\frac{1}{T} \sum_{t=1}^{T} J_{t}(\theta)$

$J_{t}(\theta)=\log \sigma\left(u_{o}^{T} v_{c}\right)+\sum_{j=1}^{k} \mathbb{E}_{j {\sim}P(j)}\left[\log \sigma\left(-u_{j}^{T} v_{c}\right)\right]$
中心词在词典中索引为 $c$ , 背景词在词典中索引为 $o$ ， $u$ 是背景词向量， $v$ 是中心词向量, $k$ 表示负样本的数量。公式第一项为最小化正样本的损失，第二项为最大化负样本的损失， $σ(x)=1/(1+exp(−x))\sigma(x)=1/(1+exp(-x))$ 。 $E\mathbb{E}$ 期望表示值与概率相乘。

$j$ 是一个单词， $Z(j)Z\left(j\right)$ 是 $j$ 这个单词在所有语料中出现的频次。举个例子，如果单词
“peanut” 在10亿规模大小的语料中出现了1000次，那么
$Z ("$ peanut" $) = 1000 / 1000000000 = 1 e - 6 < b r >$ 。
在代码中还有一个参数叫 “sample”，这个参数代表一个阈值，默认值为 $0.001$ (在gensim包中的Word2Vec类说明中，这个参数默认为 $0.001$ ，文档中对这个参数的解释为 " threshold for configuring which higher-frequency words are randomly downsampled"）。这个值越小意味着这个单词被保留下来的概率越小 (即有越大的概率被我们删除)。
$P(j)P\left(j\right)$ 代表看保留某个单词的概率:
$P\left(j\right)=\left(\sqrt{\frac{Z\left(j\right)}{0.001}}+1\right) \times \frac{0.001}{Z\left(j\right)}$

word2vec-层次softmax

使用哈夫曼树，词频越高越接近根结点。哈夫曼树构建好后，就可以得到路径，计算中心词条件下背景词的概率。如果为左子树则为1，右子树则为-1。
在这里插入图片描述
$P(w3∣wi)=σ(un(w3,1)Tvi)⋅σ(−un(w3,2)Tvi)⋅σ(un(w3,3)Tvi)P\left(w_{3} \mid w_{i}\right)=\sigma\left(\boldsymbol{u}_{n\left(w_{3}, 1\right)}^{T} \boldsymbol{v}_{i}\right) \cdot \sigma\left(-\boldsymbol{u}_{n\left(w_{3}, 2\right)}^{T} \boldsymbol{v}_{i}\right) \cdot \sigma\left(\boldsymbol{u}_{n\left(w_{3}, 3\right)}^{T} \boldsymbol{v}_{i}\right)$

代码

tf.nn.nec_loss是word2vec的skip-gram模型的负例采样方式的函数。

loss = tf.reduce_mean(
      tf.nn.nce_loss(weights=nce_weights,
                     biases=nce_biases,
                     labels=train_labels,
                     inputs=embed,
                     num_sampled=num_sampled,
                     num_classes=vocabulary_size))