关于Gensim的word2vec要不要train的疑问

最新推荐文章于 2023-03-27 11:11:51 发布

蛐蛐蛐

最新推荐文章于 2023-03-27 11:11:51 发布

阅读量784

点赞数 1

分类专栏：深度学习科研工具 Python技巧

本文链接：https://blog.youkuaiyun.com/qysh123/article/details/119792902

版权

科研工具同时被 3 个专栏收录

137 篇文章

订阅专栏

Python技巧

99 篇文章

订阅专栏

深度学习

65 篇文章

订阅专栏

博客探讨了使用 gensim 的 word2vec 模型时，关于是否需要单独训练的疑问。作者指出，一些在线示例未明确展示训练步骤，但实际上官方文档建议进行训练。文中给出了完整的训练过程，并强调了训练时间的重要性，以此提醒读者注意模型构建与训练的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我一直有这方面的疑问，看网上大部分的例子，大家都是直接创建了model即可，例如这里：https://www.jianshu.com/p/5f04e97d1b27

给出的例子：

from gensim.models import word2vec 
import time
start = time.clock()
model=word2vec.Word2Vec(train_content, size=200)
end = time.clock()
print('Running time: %s Seconds'%(end-start))

我就是觉得很疑惑，因为我之前使用doc2ec的时候，是要单独train的。但是网上的例子基本都没有train那一步，例如下面这些：

https://zhuanlan.zhihu.com/p/141136987

https://blog.youkuaiyun.com/baimafujinji/article/details/77836142

https://blog.youkuaiyun.com/ljz2016/article/details/103767689

https://www.cnblogs.com/hziwei/p/13533888.html

这个嘛，感觉大家写博客都不认真啊！按照官方的文档：https://radimrehurek.com/gensim/models/word2vec.html#usage-examples

应该是需要train的！这里我也给出一个例子：

import gensim
import pickle
import datetime

print('Start reading the corpus')
sentences=gensim.models.word2vec.LineSentence('SymTxt_Doc2Vec.txt')#对应的语料库文件


print('Start building the model')
time_1=datetime.datetime.now()
model=gensim.models.word2vec.Word2Vec(sentences, hs=1, vector_size=256)
time_2=datetime.datetime.now()
print("Total elapse time for building the model (s): "+str((time_2-time_1).total_seconds()))

test=model.wv['invoke-direct']#这是我的语料库中的一个word
print(test)

print('Start Training')
time_1=datetime.datetime.now()
model.train(corpus_iterable=sentences,total_examples=model.corpus_count,epochs=100)
time_2=datetime.datetime.now()
print("Total elapse time for training (s): "+str((time_2-time_1).total_seconds()))

f_model=open('Word2Vec_Model.pkl','wb')
pickle.dump(model, f_model, protocol = 4)

test=model.wv['invoke-direct']#可以看到，train的时间是要比model构建的时间长的。训练之后这个word的embedding也发生了变化
print(test)

不得不吐槽说，网上的很多例子都太不靠谱了！！