word2vec模型

本文详细介绍了word2vec模型,包括CBOW、Skip-gram、Hierarchical softmax和Negative Sampling等核心概念。CBOW通过上下文预测词,Skip-gram则通过词预测上下文。Hierarchical softmax和Negative Sampling作为优化策略,降低了计算复杂度。最后提到了Subsampling技术,用于减少高频词的训练次数,提升稀有词的曝光率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

word2vec是一种无监督预训练词向量模型。

CBOW

CBOW的全称为Continuous Bag-of-WordModel。模型的任务是在给定某单词的上下文(context)的情况下,预测这个词出现的概率。

具体来说,假设目标词的词向量是 wtw_twt,大小为 kkk 的窗口中,wtw_twt 的上下文中的单词为 wt−k,…,wt+kw_{t-k},\dots,w_{t+k}wtk,,wt+k

给定 wtw_twt 的上下文,字典中的其他词 wv(v∈V)w_v(v\in V)wv(vV) 出现的概率的预测为

P(wv∣wt−k,…,wt+k)=exp⁡(ywv)∑i∈Vexp⁡(ywi)P(w_v|w_{t-k},\dots,w_{t+k})=\frac{\exp(y_{w_v})}{\sum_{i\in V}\exp(y_{w_i})}P(wvwtk,,wt+k)=iVexp(ywi)exp(ywv)

其中,y=(yw1,yw2,…,yw∣V∣)∈R∣V∣y=(y_{w_1},y_{w_2},\dots,y_{w_{|V|}})\in { R}^{|V|}y=(yw1,yw2,,ywV)RV是关于模型参数和 wtw_twt 的上下文 wt−k,…,wt+kw_{t-k},\dots,w_{t+k}wtk,,wt+k 的函数。在CBOW中,定义为y=b+U⋅h(wt−k,…,wt+k∣W)y=b+U\cdot h(w_{t-k},\dots,w_{t+k}|W)y=b+Uh(wtk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值