Word2Vec

博客介绍了Word2Vec,它用于计算单词的分布式向量表征,在自然语言处理应用中很有用。还阐述了skip-gram模型,其训练目标是学习单词预测上下文的向量表征,使用softmax开销大,为加速训练采用hierarchical softmax降低计算复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Word2Vec

Word2Vec 用来计算单词的分布式向量表征。分布式表征的主要优点是相似的单词在向量空间中很接近,在很多自然语言处理应用中都被证明很有用,例如命名实体识别(NDR)、消歧、标注、机器翻译等。
在这里插入图片描述

skip-gram Model

skip-gram 的训练目标是学习单词在同一句子中有效预测其上下文的向量表征。从数学上来说,给定一系列训练单词 w1,w2,…,wTw1,w2,…,wTw1,w2,,wT ,skip-gram model 的目标是最大化平均 log-likelihood

1T∑t=1T∑j=−kj=klog⁡p(wt+j∣wt)\frac{1}{T} \sum_{t = 1}^{T}\sum_{j=-k}^{j=k} \log p(w_{t+j} | w_t)T1t=1Tj=kj=klogp(wt+jwt)

其中k是训练窗口的大小。

在 skip-gram 模型中,每个单词 www 与两个向量 uwu_wuwvwv_wvw 相关联,它们分别是 www 的作为单词和上下文的向量表征。给出单词 wjw_jwj,正确预测单词 wiw_iwi 的概率是由 softmax 模型决定,即
p(wi∣wj)=exp⁡(uwi⊤vwj)∑l=1Vexp⁡(ul⊤vwj)p(w_i | w_j ) = \frac{\exp(u_{w_i}^{\top}v_{w_j})}{\sum_{l=1}^{V} \exp(u_l^{\top}v_{w_j})}p(wiwj)=l=1Vexp(ulvwj)exp(uwivwj)
其中 VVV 是词典大小。

使用 softmax 的 skip-gram 模型开销很大,因为计算 log⁡p(wi∣wj)\log p(w_i | w_j)logp(wiwj) 的成本与 VVV 成比例, VVV 很容易就百万级。 为了加速 Word2Vec 的训练,我们使用了 hierarchical softmax,它将 log⁡p(wi∣wj)\log p(w_i | w_j)logp(wiwj) 的计算复杂度降低到 O(log(V))O( log(V))OlogV

ReferenceReferenceReference:
https://zhuanlan.zhihu.com/p/27234078

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值