论文笔记之Distributed Representations of Words and Phrases and their Compositionality

原创

已于 2022-03-04 14:47:34 修改 · 4.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能 #NLP #word2vec

于 2022-02-28 15:04:39 首次发布

本文探讨了Word2Vec模型中skip-gram和CBOW计算softmax时遇到的高复杂度问题，提出了层次softmax和负采样两种优化方法。层次softmax利用二叉树结构降低计算复杂度，而负采样则将多分类问题转换为二分类，提高了运算效率。文章详细解释了两种方法在skip-gram和CBOW模型中的应用，并介绍了词频重采样的策略，以加强重要词汇的训练。实验表明，这些优化方法能加速训练并提升词向量质量。

这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题。为了降低复杂度，提高运算效率，论文作者提出了层次softmax以及负采样的方式去解决(负采样会比层次softmax用的更多些)。此外，作者还提出了一种重采样方式去使得采样更偏重一些含重要信息的词。

参考：
①B站视频
②论文
③Word2vec的两种原模型
④Word2vec 中的数学原理详解
⑤Word2Vec-知其然知其所以然

Distributed Representations of Words and Phrases and their Compositionality

1 Hierarchical Softmax
- 1.1 Skip-gram HS构建
- 1.2 CBOW HS的构建
2 Negative Sampling
- 2.1 Skip-gram中的NS
- 2.2 CBOW中的NS
3 Subsampling of Frequent Words
4 实战演练
- 4.1 PTB数据集
- 4.2 模型训练
5 Conclusion

文章介绍了2种可以简化skip-gram和CBOW两种模型中softmax部分的计算复杂度，即Hierarchical Softmax(HS)和Negative Sampling(NS)。这两种技巧均可用于上述2种模型，故HS和NS的目标就是改变softmax的表达式：
$\frac{exp(u_o^Tv_c)}{\sum^V_{w=1}exp(u^T_wv_c)}\tag{1}$
从式(1)中可以看出，计算一次概率需要经过 $V$ (语料库大小)次的指数运算，那么自然HS和NS就要想办法在保证求出概率 $p (o ∣ c)$ 的情况下，减小 $u^T_wv_c$ 的运算次数。因此原skip-gram以及CBOW的softmax需要做出改进。

1 Hierarchical Softmax

层次softmax的核心思想就是通过引出二叉树结构(Huffmax 二叉树)将求softmax的计算转为求sigmoid的计算，从而将计算复杂度从 $V$ 降到 $log_2V$ 以下，即从原来的需要求 $V$ 次关于 $u_w^Tv_c$ 的指数运算降低到求小于 $log_2V$ 次的sigmoid运算( $\sigma(x) = \frac{1}{1+e^{-x}}$ )。