gensim的LSI模型来计算文档的相似度

最新推荐文章于 2022-04-12 11:22:31 发布

转载最新推荐文章于 2022-04-12 11:22:31 发布 · 1.4k 阅读

文章标签：

#文档相似度 #python #LSI

文本分类专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何利用gensim库中的LSI模型计算文档之间的相似度，通过加载字典和语料库，构建LSI模型，将查询文档转换为LSI空间，然后通过索引和相似性计算找到最相似的文档。

[python]view plaincopy 
   
 from gensim import corpora,models,similarities  
 dictionary=corpora.Dictionary.load('/tmp/deerwester.dict')  
 corpus=corpora.MmCorpus('/tmp/deerwester.mm')  
 print(corpus)  
   
 lsi=models.LsiModel(corpus,id2word=dictionary,num_topics=2)  
 doc="human computer interaction"  
 vec_bow=dictionary.doc2bow(doc.lower().split())  
 vec_lsi=lsi[vec_bow]  #convert the query to LSI space  
 print(vec_lsi)  
   
 #transform corpus to space and index it  
 index=similarities.MatrixSimilarity(lsi[corpus])  
   
 index.save('/tmp/deerwester.index')  
 sims=index[vec_lsi]  
 sims=sorted(enumerate(sims),key=lambda item:-item[1])  
   
 from pprint import pprint  
 pprint(sims)