Word2Vec原论文阅读

Word2Vec模型解析：高效词向量表示与计算复杂度探讨

原创

于 2022-11-26 21:38:17 发布 · 2.7k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#word2vec #论文阅读 #深度学习

本文详细介绍了Word2Vec模型的起源及其在解决词义相似度和计算复杂度问题上的贡献。Word2Vec通过CBOW和Skip-gram任务简化了神经网络语言模型，降低了计算复杂度，提升了大规模文本数据的处理效率。模型通过词向量的运算能够体现词义的相似性和语法关系，为后续的自然语言处理任务提供了有效的预训练表示。此外，文章还讨论了模型的计算复杂度，对比了NNLM模型，展示了Word2Vec在时间和性能上的优势。

Word2Vec原论文阅读

一、背景

Word2Vec 是自然语言处理、文本表示学习的典型模型，首次提出了 CBOW、Skip-gram 等目前仍在沿用的词向量学习思想，也是除了预训练模型生成词向量之外，最具有代表性的神经网络词向量模型。直至目前，基于 Word2Vec 生成的词向量仍然在很多自然语言处理任务中得到使用。理解 Word2Vec 模型，对理解文本表示学习、词向量训练具有重要的意义。

Word2Vec 模型首次在2013年被 Tomas Mikolov 等人在《Efficient Estimation of Word Representations in Vector Space》论文被提出，该论文发表在深度学习领域顶会 ICLR。但是，该论文并没有详细描述 Word2Vec 的模型细节，重点在于讨论现有 NNLM 模型（神经网络语言模型）的时间复杂度，并从减少训练时间复杂度的角度出发提出了 CBOW 和 Skip-gram 思想。在此之后，Xin Rong 于2017年发表了论文《word2vec Parameter Learning Explained》，详细介绍了 Word2Vec 模型的内部机理和参数训练过程。

本文主要阅读并总结了 Word2Vec 原始论文《Efficient Estimation of Word Representations in Vector Space》，对该论文及其提出的 Word2Vec 模型进行了一个大致介绍，将在之后详细阅读并总结论文《word2vec Parameter Learning Explained》。

二、目的

在 Word2Vec 提出之前，主流的词向量表示法包括 one-hot 编码、词袋模型、N-gram 语言模型、NNLM 模型等，但上述模型存在两个共性问题：

① 词义相似度。不同词的词义一定有远近之分，例如 Queen 与 Women 的相似度一定大于同 Men 的相似度，理想的词向量应当能够表示这种词义相似度。

② 维度灾难。非神经网络模型存在的共同问题是词向量维度同词表大小正相关，词表扩张会带来词向量空间占用的倍增，而 NNLM 模型的计算复杂度也非常高。

针对以上两个问题，该论文提出了 Word2Vec 模型，分别在一定程度上解决了上述两个问题：

① 词义相似度。针对该问题，Tomas Mikolov 提出了词义相似度的判断标准，即词向量满足什么条件下视作能够反映词义相似度：通过向量间的运算能够找到指定条件的最近义词。同时，进一步提出了多种词义相似度，包括语义相似（例如 France 与 Italy 的相似）和语法相似（例如 Bigger 与 Smaller 的相似）。基于提出的多种相似度，构建了一个测试集及评测标准。

② 降低复杂度。针对该问题，作者采用了先使用简单模型训练词向量，进而使用词向量加入到下游任务训练的思想，去掉了 NNLM 的隐藏层来使用一个简单模型生成词向量，极大地减小了计算复杂度以使其能应用在大规模数据集上。

三、具体模型

本文搭建的具体模型是在 NNLM 模型的基础上去掉隐藏层，分别基于 CBOW 和 Skip-Gram 两种任务实现的。

NNLM 模型的结构放在当下并不算复杂，就是非常典型的前馈神经网络：

在这里插入图片描述

和目前主流的概念不同的是，在 NNLM 论文中，将该网络分成了四层：输入层、投影层、隐藏层与输出层，其中的投影层是目前较为少见的概念，其实可以看作是隐藏层的第一层，用于将 one-hot 向量映射到低维稠密向量空间中。其主要是基于一个共享参数矩阵 P（D * V 维，其中 D 为设定的词向量维度，V 为词表大小），在投影层计算：
$Output_{D\times1} = P_{D\times V} \times Input_{V\times1}$

最低0.47元/天解锁文章