论文翻译解读：Distributed Representations of Words and Phrases and their Compositionality【Word2Vec优化】

原创

已于 2022-07-15 14:36:42 修改 · 1.4k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #自然语言处理 #深度学习

于 2022-07-11 08:57:53 首次发布

本文探讨了Word2Vec模型的优化，包括分层Softmax和负采样的替代方案，以及短语表示的学习。负采样在加速训练和提高罕见词表示准确性方面表现出色。此外，通过向量加法展示了词的组合性，揭示了向量表示的线性结构。实验结果显示，使用大型数据集训练的Skip-gram模型能有效捕捉句法和语义关系，学习高质量的词和短语向量表示。

文章目录

Distributed Representations of Words and Phrases and their Compositionality

Distributed Representations of Words and Phrases and their Compositionality

简要信息

序号	属性	值
1	模型名称	Word2Vec
2	所属领域	自然语言处理
3	研究内容	词嵌入
4	核心内容	Word2Vec优化
5	GitHub源码	Word2Vec
6	论文PDF	Distributed Representations of Words and Phrases and their Compositionality

重点内容概括

替代分层softmax方案–负采样

词表示固有的限制：不关心次序，无法表示习惯用于

本文提出在文本中查找短语的方法

用向量表示整个短语会使skip-gram更具表现力

高频词二次取样，因为in，the，a没什么信息，可以加速训练，提高算法精度

摘要

最近引入的连续跳过图模型是一种学习高质量分布式向量表示的有效方法，它捕获了大量精确的句法和语义词关系。在本文中，我们提出了几个扩展，以提高向量的质量和训练速度。通过对频繁出现的单词进行子采样，我们获得了显著的加速，并学习了更规则的单词表征。我们还描述了分层softmax的一个简单替代方案，称为负采样。

词语表征的一个内在限制是它们对词序的漠不关心以及它们不能表示习惯短语。例如，“Canada”和“Air”的含义不能轻易结合起来得到“Air Canada”。受这个例子的启发，我们提出了一个在文本中寻找短语的简单方法，并表明学习数百万短语的良好向量表示是可能的。

1 介绍

通过分组相似的单词，在向量空间中的分布式向量表示可以帮助学习算法在NLP任务中获得更好的表现。最早使用单词表示可以追溯到1986年(Rumelhart，Hinton和Williams)。这个想法已经被应用于统计语言建模且取得了相当大的成功。后续工作包括应用于自动语音识别和机器翻译，以及大范围的NLP任务。
最近，Mikolov等人引入了Skip-gram模型，这是一种从大量非结构化文本数据中学习高质量向量表示的有效方法。与过去大部分用于学习word vectors的神经网络架构不同，Skip-gram模型的训练(参见图1)不涉及密集矩阵的乘法。这使得训练非常高效：一个优化过的单机实现可以在一天内训练超过1000亿字。
使用神经网络计算的word representation非常有趣，因为已训练的向量明确地编码了许多语言规律和模式。有点令人惊讶的是，许多这些模式可以表示为线性翻译。例如，向量计算vec("Madrid")-vec("Spain")+vec("France")的结果比任何其他word vector更接近于vec("Paris")。
在这里插入图片描述