Word2Vec 与《Distributed Representations of Words and Phrases and their Compositionality》学习笔记_distributed representations of words and phrases笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/scanf_yourname/article/details/94630754

本文介绍了Word2Vec的原理，包括词嵌入、Skip-gram模型、分层Softmax和负采样等关键概念。通过词向量的训练，可以捕捉词与词之间的关系，实现类比操作。文章还讨论了在大规模数据下优化训练的策略，如分层Softmax和负采样方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是Word2Vec

词嵌入 $(w o r d$ $e m b e d d i n g)$

简单来说， $e m b e d d i n g$ 就是用一个低维的向量表示一个词。在词向量提出之前，人们经常采用 $o n e$ $h o t$ $e n c o d i n g$ 对词语进行编码。但由于 $o n e$ $h o t$ $e n c o d i n g$ 的维度等于词语的总数，比如阿里的商品 $o n e$ $h o t$ $e n c o d i n g$ 的维度就至少是千万量级的。这样的编码方式对于商品来说是极端稀疏的，而深度学习的特点以及工程方面的原因使其不利于稀疏特征向量的处理，因此，如果能把物体编码为一个低维稠密向量再喂给神经网络，自然是一个高效的基本操作，词嵌入应运而生。

词嵌入的特点

词向量中的值并不是随意给出的而是经过训练得到的，是可以表示一定特征的，所以两个词向量之间的距离可以表示两个词相似的程度；词向量还可以进行类比操作。比如已知 $m a n$ 类比于 $w o m a n$ ，问 $k i n g$ 类比于什么，显然我们知道是 $q u e e n (王后)$ ，如果用词向量， $m a n$ 与 $w o m a n$ 是向量空间的两个点，两者连成一个向量应该和 $k i n g$ 这个点与未知点所连向量是相等向量(或者相差很小)，我们可以遍历一下，便最终可以得到 $q u e e n$ 这个点。这就是词向量的类比操作。

在这里插入图片描述
如上图所示，我们假设上面的六个单词经过词嵌入得到了4维向量，词向量每一个维度都可以表现出一定的具体意义，在上图中分别是性别，王室信息，年龄和食物属性。我们对男人女人两个向量做差得到的向量和皇帝与皇后两个向量做差得到向量，相差很小，这就是一种类比关系。
在这里插入图片描述
在向量空间中两个向量是平行的。

嵌入矩阵

那么用什么来表示词向量呢？答案是嵌入矩阵。
我们假设在字典中有 $10000$ 个单词，每一个单词都有一个 $o n e$ $h o t$ $v e c t o r$ 与之对应，这样就有 $10000$ 个向量与字典中的单词构成一一映射。我们假设我们要经过词嵌入，将这些 $o n e$ $h o t$ $v e c t o r$ 转化成 $300$ 维词向量，那么我们就定义一个 $10000 * 300$ 的嵌入矩阵W：
$e = x W$
在这里插入图片描述
上图神经网络模型中 $I n p u t$ $l a y e r$ 代表的是 $o n e$ $h o t$ $v e c t o r$ 而隐藏层 $(H i d d e n$ $l a y e r)$ 则代表词向量， $W_{V*N}$ 则是嵌入矩阵，所以获得词向量的过程就是通过一个神经网络定义损失函数，训练嵌入矩阵的过程。