利用python及jieba分词和gensim模块计算文本相似度

最新推荐文章于 2024-01-23 16:06:48 发布

吴楠京

最新推荐文章于 2024-01-23 16:06:48 发布

阅读量7.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签：自然语言处理文本相似度 python gensim tfidf

本文链接：https://blog.youkuaiyun.com/lunseqing5357/article/details/79917119

此博客介绍了如何利用python、jieba分词和gensim的TF-IDF模型，从文本库中找出与输入文本相似的内容。通过读取训练数据，进行分词，构建词袋模型，计算相似度并按相似度排序，输出前6条最相似的文本。

由于工作需要，接触自然语言处理，写一些笔记，请大家指教。

功能：

实现把文本库中和输入文本相似的文本输出。

工具：

Spyder，python3.6，codecs，jieba，gensim等模块。（需要自己安装相关模块，我使用的是pip安装）

程序：

# -*- coding: utf-8 -*-
"""
Spyder Editor

This is a temporary script file.
"""
import jieba
from gensim import corpora,models,similarities
import codecs
#构建停用词表
#stop_words = 'E:/zss/zss/资料/网站积累的源码/doc2vec_java-master/file/totalstop.txt'
#stopwords = codecs.open(stop_words,'rb').readlines()
#stopwords = [ w.strip() for w in stopwords ]
#stop_flag = ['x', 'c', 'u','d', 'p', 't', 'uj', 'm', 'f', 'r']

#读取训练词库
Train_test = 'E:/zss/zss/资料/网站积累的源码/doc2vec_java-master/file/test.txt'
Traintest = codecs.open(Train_test,'rb').readlines()
Traintest = [w.strip() for w in Traintest]
# 分词完毕得到结果
Traintest_word = []
for word in Traintest:
words_list = [words for words in jieba.cut(word)]
&n