词袋模型(BOW,bag of words)和词向量模型(Word Embedding)理解

本文介绍了Word2vec模型,包括词袋模型(BOW)和词向量模型,重点讲解了CBOW和Skip-Gram模型的工作原理。CBOW模型中,输入是上下文词向量,输出是目标词向量;而Skip-Gram则相反,输入是目标词向量,输出是上下文词向量。Word2vec通过大量文本学习单词关系,生成高维词向量,捕捉语言规律。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Word2vec

向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量。矢量分量表示文档中每个单词的权重或重要性。使用余弦相似性度量计算两个文档之间的相似性。

尽管对单词使用矢量表示的想法也已经存在了一段时间,但是对于嵌入单词的技术,将单词映射到向量的技术,最近一直在飙升。其中一个驱动因素是TomášMikolov的Word2vec算法,该算法使用大量文本来创建高维(50到300维)的单词表示,捕获单词之间的关系,无需外部注释。这种表述似乎捕获了许多语言规律。例如,它产生一个近似于vec(‘Rome’)表示的向量,作为向量运算vec(‘Paris’) - vec(‘France’)+ vec(‘Italy’)的结果。

Word2vec使用单个隐藏层,完全连接的神经网络如下所示。隐藏层中的神经元都是线性神经元。输入层设置为具有与用于训练的词汇中的单词一样多的神经元。隐藏图层大小设置为生成的单词向量的维度。输出图层的大小与输入图层相同。因此,假设用于学习单词向量的词汇表由V个单词组成并且N为单词向量的维度,则对隐藏层连接的输入可以由大小为VxN的矩阵WI表示,其中每行表示词汇单词。以相同的方式,可以通过矩阵WO来描述从隐藏层到输出层的连接大小为NxV。在这种情况下,WO矩阵的每列 表示来自给定词汇表的单词。使用“ 1-out of -V ”表示对网络的输入进行编码,这意味着只有一条输入线被设置为1,其余输入线被设置为零。
在这里插入图片描述
为了更好地处理Word2vec的工作原理,请考虑具有以下句子的训练语料库:

“狗看到了一只猫”,“狗追着猫”,“猫爬上了一棵树”

语料库词汇有八个单词。按字母顺序排序后,每个单词都可以通过其索引引用。对于这个例子,我们的神经网络将有八个输入神经元和八个输出神经元。让我们假设我们决定在隐藏层中使用三个神经元。这意味着WI和WO将分别是8×3和3×8矩阵。在训练开始之前,这些矩阵被初始化为小的

模型embedding是自然语言处理中两种不同的表示文本的方法。 模型是一种简单的表示方法,它将文本视为一个子,将文本中的所有汇都放入其中,并统计每个汇的出现次数或者出现与否。在模型中,每个汇都是独立的,不考虑其语序的问题。因此,模型只关注汇的数量频率,而不关注汇之间的关系。 而embedding是一种更高级的文本表示方法,它通过学习将文本中的汇转换为连续向量表示。这些向量被设计成能够捕捉汇之间的语义语法关系。通过embedding,相似的汇在向量空间中会更加接近,可以进行汇的比较计算。embedding模型的训练输入一般是上下文相关的对应的词向量,而输出是特定汇的词向量。 因此,模型更加简单,只考虑汇的数量出现频率,而embedding则通过学习将汇转换为连续向量,能够更好地捕捉汇之间的语义关系。最终的选择要根据具体的任务需求来决定。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [one-hot(独热)、bag of word)、word-Embedding嵌入)浅析](https://blog.youkuaiyun.com/xixiaoyaoww/article/details/105459590)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [模型BOWbag of words词向量模型Word Embedding)概念介绍](https://blog.youkuaiyun.com/qq_43350003/article/details/105392702)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值