Word2Vec之数学原理推导

最新推荐文章于 2024-09-05 23:47:24 发布

Bazingaea

最新推荐文章于 2024-09-05 23:47:24 发布

阅读量655

点赞数 1

分类专栏： machine learning 文章标签： word2vec skip-gram

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Bazingaea/article/details/89454266

版权

本文深入探讨Word2Vec的数学原理，包括ONE-WORD-MODEL的介绍，以及Skip-gram模型的正向传播、反向传播的详细推导。文章解释了如何通过滑动窗口和softmax函数构建预测上下文的模型，并讨论了CBOW模型的基础概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对word2vec不了解的可以先看看这篇Word2vec入门

网上很多word2vec的前向传播和反向传播给出的推导都不是很好理解，而且对于不太同种的实现方式也没有具体说明，所以一直想把这部分的坑填上，对于skip的模型解释的也很模糊，本文以一个单词输入为引子，主要推导这部分的正向传播和反向传播，然后介绍skip-model和CBOW。

ONE-WORD-MODEL

在说word2vec模型之前，先谈一谈ONE-WORD-MODEL，这个模型使用率其实很低，先说这个是为了更好的理解word2vec的推导过程。这个模型是输入一个单词，然后输出词库中和它最接近的单词。

为了方便解释，我们约定V代表着单词库中单词的数量，N代表隐藏层数量也就是一个单词embedding_size，代表用几个离散值来表示这个单词。简化为V=4，N=5，见下图：
在这里插入图片描述
这个模型一共有三个层，输入层，隐藏层，输出层，两个权重分别W1,W2,在这里W2其实就是W1的转置，输入为一个one-hot形式，比如（1,0,0,0）输出也是一个one-hot形式，表示和输入最接近的词。

在开始介绍模型计算之前，先要想明白一件事情，这是一个监督学习网络，也就是我们有正确label的真实值记为Y_true

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。