Word2Vec之数学原理推导

本文深入探讨Word2Vec的数学原理,包括ONE-WORD-MODEL的介绍,以及Skip-gram模型的正向传播、反向传播的详细推导。文章解释了如何通过滑动窗口和softmax函数构建预测上下文的模型,并讨论了CBOW模型的基础概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对word2vec不了解的可以先看看这篇Word2vec入门

网上很多word2vec的前向传播和反向传播给出的推导都不是很好理解,而且对于不太同种的实现方式也没有具体说明,所以一直想把这部分的坑填上,对于skip的模型解释的也很模糊,本文以一个单词输入为引子,主要推导这部分的正向传播和反向传播,然后介绍skip-model和CBOW。

ONE-WORD-MODEL

在说word2vec模型之前,先谈一谈ONE-WORD-MODEL,这个模型使用率其实很低,先说这个是为了更好的理解word2vec的推导过程。这个模型是输入一个单词,然后输出词库中和它最接近的单词。

为了方便解释,我们约定V代表着单词库中单词的数量,N代表隐藏层数量也就是一个单词embedding_size,代表用几个离散值来表示这个单词。简化为V=4,N=5,见下图:
在这里插入图片描述
这个模型一共有三个层,输入层,隐藏层,输出层,两个权重分别W1,W2,在这里W2其实就是W1的转置,输入为一个one-hot形式,比如(1,0,0,0)输出也是一个one-hot形式,表示和输入最接近的词。

在开始介绍模型计算之前,先要想明白一件事情,这是一个监督学习网络,也就是我们有正确label的真实值记为Y_true

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值