cbow和skip-gram比较

最新推荐文章于 2025-07-08 17:07:29 发布

原创最新推荐文章于 2025-07-08 17:07:29 发布 · 6.6k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

NLP知识点专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了word2vec中的两种核心方法：CBOW和Skip-gram。CBOW利用周围词预测中心词，而Skip-gram则通过中心词预测周围词。详细对比了两者的训练过程、目标函数及适用场景，特别指出当数据量较小或包含大量低频词时，Skip-gram更为适用。

AI助手已提取文章相关产品：

联系

cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法

区别

cbow是用周围词预测中心词，训练过程中其实是在从output的loss学习周围词的信息也就是embedding，但是在中间层是average的，一共预测V次；
skip-gram是用中心词预测周围词，对每一个中心词都有K个词作为output，对一个词的预测有K次，所以能够更有效的从context中学习信息，共预测K*V次，因此，skip-gram的训练时间更长

鉴于skip-gram学习的词向量更细致，当数据量较少或者语料库中有大量低频词时，使用skip-gram学习比较合适

目标函数

CBOW中的目标函数是使条件概率P(w|context(w))最大化
Skip-gram中的目标函数是使条件概率P(context(w)|w)最大化

损失函数

这里使用的损失函数实际上是交叉熵损失函数
Xj 理解为输入one_hot样本，p理解为整个神经网络, 因此p(xj)在该问题中就是最终的输出神经元激活值yj，tj 是样本xj的真实标签，对于某个样本实例，在输出神经元上，只有一个分量的tj=1，其余为0，不妨令这个分量为j∗。化简即 E=−logp(wO|wI)为本问题的交叉熵损失函数

参考文章
参考文章1
参考文章2
参考文章3

您可能感兴趣的与本文相关内容

真心乖宝宝

博客等级

码龄7年

关注

179点赞

462收藏

28粉丝

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。