python实现word2vec

本文通过使用numpy和Google Sheets实现Word2Vec的skip-gram模型,详细解析了自然语言处理中词向量的生成过程。从数据预处理到模型训练,再到损失计算与参数更新,全面介绍了Word2Vec的内部实现机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://towardsdatascience.com/an-implementation-guide-to-word2vec-using-numpy-and-google-sheets-13445eebd281
https://www.leiphone.com/news/201812/2o1E1Xh53PAfoXgD.html
两个链接对照着看

实现的是skip_graw模型
在这里插入图片描述

text = "natural language processing and machine learning is fun and exciting"

# Note the .lower() as upper and lowercase does not matter in our implementation
# [['natural', 'language', 'processing', 'and', 'machine', 'learning', 'is', 'fun', 'and', 'exciting']]
corpus = [[word.lower() for word in text.split()]]

数据处理,把目标词和对应的内容词打包
目标词和内容词
处理之后的格式
在这里插入图片描述

模型训练
在这里插入图片描述
在这里插入图片描述

计算损失
在这里插入图片描述
更新参数W1,W2
在这里插入图片描述
在这里插入图片描述

细节部分按照开头给的链接去看
看完后收获:word2vec内部实现,我理解的是两层神经网络连接,损失函数那里不是很清楚

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值