word2vec中CBOW和Skip-Gram训练模型的原理

最新推荐文章于 2025-05-19 18:23:16 发布

转载最新推荐文章于 2025-05-19 18:23:16 发布 · 2.6k 阅读

本文深入解析word2vec的两种模型——CBOW与Skip-gram的工作原理。通过具体例子展示了如何利用上下文词预测中心词（CBOW）及利用中心词预测上下文词（Skip-gram），并介绍了one-hot向量如何转化为低维词向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载于CBOW模型和Skip-Gram模型

前言

word2vec如何将corpus（语料库）的one-hot向量（模型的输入）转换成低维词向量（模型的中间产物，更具体来说是输入权重矩阵），真真切切感受到向量的变化，暂不涉及加速算法。

CBOW模型根据中心词W(t)周围的词来预测中心词：

Skip-gram模型则根据中心词W(t)来预测周围词：

CBOW模型的理解

假设我们现在的Corpus是这一个简单的只有四个单词的document：

{I drink coffee everyday}

我们选coffee作为中心词，window size设为2

也就是说，我们要根据单词"I","drink"和"everyday"来预测一个单词，并且我们希望这个单词是coffee。

输入层：上下文单词的onehot1*4维*3个词

输出层：1*4维的向量（概率表示）

任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

SKip-Gram模型

首先，我们建立一个10000个词的词典，输入的单词就是一个的10000维one-hot向量，而网络的输出也是一样 10，000维的向量，代表每个词预测的概率

模型小trick

Negative Sampling

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dxlcnm

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Word2Vec：CBOW模型和SkipGram模型

AI架构师小马

08-25

744

随着互联网的飞速发展，自然语言处理（NLP）技术在信息检索、机器翻译、情感分析等领域的应用越来越广泛。然而，在处理大规模文本数据时，传统的词袋模型（Bag of Words）由于无法有效捕捉词语的语义信息，导致模型效果不佳。为了解决这一问题，Word2Vec应运而生。Word2Vec通过将词语映射到连续向量空间，有效地捕捉了词语的语义和上下文信息，极大地提升了NLP任务的性能。Word2Vec算法通过训练一个神经网络模型，将词语映射到低维语义空间。该模型通常包含一个输入层、一个隐藏层和一个输出层。

NLP之Word2Vec：Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

02-03

1998

NLP之Word2Vec：Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略目录 Word2Vec算法的简介 Word2Vec的网络结构简介 Word2Vec的安装 Word2Vec的案例应用推荐文章 NLP之NNLM：NNLM算法(词向量法的始祖)的简介、网络结构、案例应用之详细攻略 NLP：Word Embedding词嵌入/word2vec词向量思想方法(一种主流的分布式表示)的简介、使用方法、案例应用之详细攻略

参与评论您还未登录，请先登录后发表或查看评论

CBOW(Continuous Bag-of-Words)模型原理

solitude23的博客

05-25

4210

原文在这里，总结一下有关CBOW模型的原理，代码是搬运的。Skip-gram模型与之类似，就不展开详细说明了。有理解不正确的地方请指正。模型架构 CBOW模型包含三层：输入层，投影层，输出层。与NNML相比，去掉了隐藏层。 CBOW是根据上下文预测中心词，有点类似于完形填空。上下文的多少是个超参数，可以自己调整。在构建数据集时，根据CBOW的特点，一般是将上下文当作输入，中心词当作标签。训练时，首先随机初始一个矩阵C∈R∣V∣×dimC\in R^{|V|\times dim}C∈R∣V∣×dim，

CBOW模型

WitsMakeMen的专栏

04-25

1476

转自：https://www.jianshu.com/p/d2f0759d053c CBOW模型 NOTE：花括号内{}为解释内容. 输入层：上下文单词的onehot. {假设单词向量空间dim为V，上下文单词个数为C} 所有onehot分别乘以共享的输入权重矩阵W. {V*N矩阵，N为自己设定的数，初始化权重矩阵W} 所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, ...

Word2Vec详解

最新发布

m0_73776435的博客

05-19

1623

其核心思想是基于词汇的共现关系，即 “一个词的语义由它周边的词汇决定”。例如，在大量文本中，“苹果” 与 “水果”“红色”“食用” 等词汇频繁共现，而 “微软” 则与 “软件”“科技”“比尔・盖茨” 等词汇共现。例如，在文本分类任务中，利用 Word2Vec 初始化词汇嵌入层，再通过 CNN 捕捉文本的局部特征和全局特征，能够构建更强大的分类模型。例如，在处理新闻文本时，利用 Word2Vec 向量作为输入特征，结合条件随机场（CRF）模型，能够有效提升实体识别的 F1 值，使得关键信息的提取更加高效。

cbow原理及实现

2301_77444219的博客

07-27

1334

最后，给定上下文词列表，模型预测目标词的词向量表示，并将训练得到的词向量保存为npz文件。具体而言，CBOW模型通过将上下文中的词的词向量相加，得到一个上下文向量，然后通过一个隐藏层将上下文向量映射到目标词的概率分布。在训练过程中，CBOW模型通过最大化预测目标词的概率来学习到每个词的词向量表示。7.将预测的结果1*V 向量和真实标签1*V 向量(真实标签中的V个值中有一个是1，其他是0)计算误差。4.将这个1*N 向量乘矩阵 W’v*N,变成一个1*V 向量。6.将概率值最大的数对应的词作为预测词。

Word2Vec中的CBOW模型训练原理详细解析

2303_77275067的博客

01-17

1072

CBOW模型的训练目标是利用一个单词周围的上下文单词来预测该单词本身。具体来说，给定当前单词的上下文单词，通过训练神经网络来最大化当前单词出现在这些上下文单词中的概率。假设有一个词汇表，大小为VVV，表示为Ww1w2wVWw1w2...wV。对于每个单词wiw_iwixix^{(i)}xi:输入的one-hot编码向量，维度为V×1V\times1V×1，仅在第iii个位置为1，其余为0。viv_ivi。

Word2Vector之skip-gram原理

lijiaqi0612的博客

12-18

469

1.词嵌入（word2vec）自然语言是一套用来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是用来表示词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入（word embedding）。 2.为何不采用one-hot向量【如何使用one-hot】 1. 假设词典中不同词的数量（词典大小）为NNN，每个词可以和从0到N−...

Pytorch实现实现word2vec中的CBOW和Skip-gram模型

12-09

通过Pytorch实现word2vec中的CBOW和Skip-gram模型是一个兼具理论深度和实践价值的项目。它不仅帮助研究者深入理解了word2vec的工作原理，还通过Negative Sampling和Hierarchical Softmax等策略优化了模型的性能，...

Word2Vec之CBOW&Skip-gram

m0_62089933的博客

10-04

666

我们之前介绍过分布假设，主要是通过上下文来构造一个共现矩阵，度量词的相似性或关联性可以在共现矩阵的基础上采用余弦相似度、Jaccard相似度、点互信息等，为了避免低频技术在统计上的不可靠性，可以对共现矩阵胡必须把矩阵奇异分解，获得矩阵更鲁棒的低阶表示后，在分解后的低阶矩阵上进行了词的表示与计算。分布式表示则是将每个词映射到低维空间中的连续向量，每个维度有着不明确的含义，而词的含义由其向量表示及与其他词的空间关系决定。 Word2Vec 词向量已成为基于...

Word2vec(CBOW和Skip-Gram)原理理解及模型训练过程推理

热门推荐

本体编辑、知识推理与检索

01-09

1万+

word2vec理解学习nlp最先了解的概念应该就是词嵌入（word embedding）吧，Word2vec是谷歌于2013年提出的一种有效的词嵌入的方法，采用了两种模型(CBOW与skip-gram模型)与两种优化方法(负采样与层次softmax方法)的组合。现在使用Word2vec获得词的向量表达，并将其应用于各种nlp任务中已经非常常见。由于我们要用计算机来完成各种自然语言理解的任务，而...

word2vec Skip-Gram模型的简单实现

10-24

word2vec Skip-Gram模型的简单实现包括预料库从维基百科提取出来的。代码是python3的，可以直接运行。

NLP之---word2vec算法skip-gram原理详解

u013602059的专栏

03-11

239

CBOW模型详解（基于one-hot）

Slim's Hello World

05-26

4792

写太好了，忍不住分享一下。 ????CBOW模型 CBOW模型 NOTE：花括号内{}为解释内容. 输入层：上下文单词的onehot. {假设单词向量空间dim为V，上下文单词个数为C} 所有onehot分别乘以共享的输入权重矩阵W. {V*N矩阵，N为自己设定的数，初始化权重矩阵W} 所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, size为1*N. 乘以输出权重矩阵W’ {N*V} 得到向量 {1*V} 激活函数处理得到V-dim概率分布 {PS: 因为是onehot嘛，

word2vec skip-gram

xxzhix的博客

08-02

1732

翻译了http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/这个链接下介绍skip-gram的word2vec。如有错误，望大家指出，非常感谢！这篇教程涵盖了word2vec的skip-gram神经网络结构。模型 Word2Vec使用了在其他机器学习中也会看到的技巧。我们使用单隐藏层的简单神经网络来...

Continuous Bag of Words CBOW预习（原理，步骤与简单例子）

Elle_Lee的博客

01-20

2143

CBOW（Continuous Bag of Words）是一种常用于训练词向量的模型，属于方法中的一种架构。它的核心思想是给定上下文（周围的词），预测中心词（目标词）。与 Skip-gram 相对，CBOW 模型是通过上下文预测中心词。CBOW 模型假设：如果知道一个词周围的上下文词，那么可以用这些上下文词来预测该词。：模型接受上下文词作为输入。假设给定一个中心词和它周围的上下文词，CBOW 会尝试利用这些上下文词来预测中心词。

Tensorflow实战：Word2Vec_Skip_Gram原理及实现（多注释）

m0_37917271的博客

09-03

1234

Word2Vec也称Word Embeddings，中文的叫法为“词向量”或“词嵌入”，是一种非常高效的，可以从原始语料中学习字词空间向量的预测模型。在Word2Vec出现之前，通常将字词转为One-Hot Encoder ，一个词对应一个向量（一个向量中只有一个1，其余皆为0），通常要将一篇文章中每一个词都转成一个向量，而整篇文章则变为一个稀疏矩阵。这样的方法...

自然语言处理——CBOW模型

jmhIcoding

10-14

6467

CBOW一个用于快速训练得到词向量的神经网络模型，它的核心原理是中心词的前R个词和后R个词来预测中心词。它的网络模型相比NNLM模型来说，最大的变化是直接去除隐层的非线性激活过程，以此来加速网络的训练速度。 CBOW的输入：假设中心词wiw_{i}wi的上下文C(wi)={wj∣j∈[i−R,i)∩[i+1,i+R)}C(w_{i})=\{w_{j}|j \in [i-R,i) \cap [...

word2vec原理(一) CBOW与Skip-Gram模型基础

weixin_34310369的博客

06-20

224

word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。1. 词向量基础用词向量来表示词并...

请简述word2vec中CBOW和Skip-Gram两个模型的具体内涵，并给出相应的数学表达式。

04-28

### Word2Vec中的CBOW和Skip-Gram模型概述 Word2Vec是一种用于生成词向量的技术，其核心目标是将词语映射到连续的低维空间中表示。它主要包括两种不同的神经网络架构：CBOW（Continuous Bag of Words）和Skip-Gram...