词袋模型（BOW，bag of words）和词向量模型（Word Embedding）理解

最新推荐文章于 2025-05-14 09:54:37 发布

AI算法工程师YC

最新推荐文章于 2025-05-14 09:54:37 发布

阅读量3.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理NLP 文章标签： CBOW Skip-Gram

本文链接：https://blog.youkuaiyun.com/qq_36134437/article/details/103117290

本文介绍了Word2vec模型，包括词袋模型（BOW）和词向量模型，重点讲解了CBOW和Skip-Gram模型的工作原理。CBOW模型中，输入是上下文词向量，输出是目标词向量；而Skip-Gram则相反，输入是目标词向量，输出是上下文词向量。Word2vec通过大量文本学习单词关系，生成高维词向量，捕捉语言规律。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Word2vec

向量空间模型在信息检索中是众所周知的，其中每个文档被表示为向量。矢量分量表示文档中每个单词的权重或重要性。使用余弦相似性度量计算两个文档之间的相似性。

尽管对单词使用矢量表示的想法也已经存在了一段时间，但是对于嵌入单词的技术，将单词映射到向量的技术，最近一直在飙升。其中一个驱动因素是TomášMikolov的Word2vec算法，该算法使用大量文本来创建高维（50到300维）的单词表示，捕获单词之间的关系，无需外部注释。这种表述似乎捕获了许多语言规律。例如，它产生一个近似于vec（‘Rome’）表示的向量，作为向量运算vec（‘Paris’） - vec（‘France’）+ vec（‘Italy’）的结果。

Word2vec使用单个隐藏层，完全连接的神经网络如下所示。隐藏层中的神经元都是线性神经元。输入层设置为具有与用于训练的词汇中的单词一样多的神经元。隐藏图层大小设置为生成的单词向量的维度。输出图层的大小与输入图层相同。因此，假设用于学习单词向量的词汇表由V个单词组成并且N为单词向量的维度，则对隐藏层连接的输入可以由大小为VxN的矩阵WI表示，其中每行表示词汇单词。以相同的方式，可以通过矩阵WO来描述从隐藏层到输出层的连接大小为NxV。在这种情况下，WO矩阵的每列表示来自给定词汇表的单词。使用“ 1-out of -V ”表示对网络的输入进行编码，这意味着只有一条输入线被设置为1，其余输入线被设置为零。
在这里插入图片描述
为了更好地处理Word2vec的工作原理，请考虑具有以下句子的训练语料库：