gensim加载word2vec训练结果(bin文件)并进行相似度实验

最新推荐文章于 2023-03-08 21:30:28 发布

转载最新推荐文章于 2023-03-08 21:30:28 发布 · 510 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/zhangtianyuan/p/6922955.html

文章标签：

#人工智能

本文通过Word2Vec模型展示了词语相似度的计算方法，包括不同词组间的相似度比较、找出一组词中与其他词最不相关的词以及寻找与指定词最相关的若干词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# -*- coding: utf-8 -*-  
import gensim  

# 导入模型
model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True)

# 得到两组词的相似度
list1 = [u'核能']
list2 = [u'电能']
list3 = [u'电力']
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list2, list3)
print list_sim2, '\n'

# 得到一组词中最无关的词
list4 = [u'汽车', u'火车', u'飞机', u'北京']
print model.doesnt_match(list4)
print '\n'

# 得到与一个词最相关的若干词及相似程度
result = model.most_similar(u'脱水工艺')
for each in result:
    print each[0] , each[1]