python gensim[word2vec & doc2vec]基本操作

这篇博客介绍了如何使用python库gensim进行word2vec和doc2vec的基本操作,包括模型训练、保存、加载及词向量获取。通过gensim自带的数据集训练了word2vec模型,并展示了如何对新文本进行训练。同时,文章还简述了doc2vec模型的创建和应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

gemsim[word2vec & doc2vec]

官方文档:https://radimrehurek.com/gensim/models/word2vec.html
https://rare-technologies.com/word2vec-tutorial/.
gensim介绍:python NLP的包
gensim包依赖于numpy包和scipy包,即需要先安装numpy和scipy,再安装gensim

【word2vec】
# 参考https://radimrehurek.com/gensim/models/word2vec.html
from gensim.test.utils import common_texts, get_tmpfile  # common_texts表示gensim包自带的可训练数据
from gensim.models import Word2Vec
from gensim.models import KeyedVectors
from gensim.test.utils import datapath


path = get_tmpfile("word2vec.model")
model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)  # word2vec中最重要的一条语句, size表示维数
model.save("word2vec.model")  # 【保存】模型

model = Word2Vec.load("word2vec.model")  # 【加载(方式1)】模型(需要继续训练时)
model.train([["hello", "world"]], total_examples=1, epochs=1)  # 添加新的文本进行训练
vector = model.wv['computer']  # 得到单词的词向量
print(vector)

# wv = Ke

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值