Python+gensim-文本相似度分析（小白进）

最新推荐文章于 2024-08-09 11:26:01 发布

原创最新推荐文章于 2024-08-09 11:26:01 发布 · 3.6w 阅读

342 ·

CC 4.0 BY-SA版权

自然语言处理专栏收录该内容

25 篇文章

订阅专栏

本文介绍gensim库中TF-IDF模型的具体实现步骤及原理，包括文本预处理、词典构建、语料库建立、TF-IDF模型训练及相似度计算等关键环节。

文章目录

1、gensim使用流程
2、代码实现
3、过程拆解
4、附录

1、gensim使用流程

在这里插入图片描述

2、代码实现

from jieba import lcut
from gensim.similarities import SparseMatrixSimilarity
from gensim.corpora import Dictionary
from gensim.models import TfidfModel
# 文本集和搜索词
texts = ['吃鸡这里所谓的吃鸡并不是真的吃鸡，也不是谐音词刺激的意思',
         '而是出自策略射击游戏《绝地求生：大逃杀》里的台词',
         '我吃鸡翅，你吃鸡腿']
keyword = '玩过吃鸡？今晚一起吃鸡'
# 1、将【文本集】生成【分词列表】
texts = [lcut(text) for text in texts]
# 2、基于文本集建立【词典】，并获得词典特征数
dictionary = Dictionary(texts)
num_features = len(dictionary.token2id)
# 3.1、基于词典，将【分词列表集】转换成【稀疏向量集】，称作【语料库】
corpus = [dictionary.doc2bow(text) for text in texts]
# 3.2、同理，用【词典】把【搜索词】也转换为【稀疏向量】
kw_vector = dictionary.doc2bow(lcut(keyword))
# 4、创建【TF-IDF模型】，传入【语料库】来训练
tfidf = TfidfModel(corpus)
# 5、用训练好的【TF-IDF模型】处理【被检索文本】和【搜索词】
tf_texts = tfidf[corpus]  # 此处将【语料库】用作【被检索文本】
tf_kw = tfidf[kw_vector]
# 6、相似度计算
sparse_matrix = SparseMatrixSimilarity(tf_texts, num_features)
similarities = sparse_matrix.get_similarities(tf_kw)
for e, s in enumerate(similarities, 1):
    print('kw 与 text%d 相似度为：%.2f' % (e, s))

打印结果

keyword 与 text1 相似度为：0.65
keyword 与 text2 相似度为：0.00
keyword 与 text3 相似度为：0.12

3、过程拆解

3.1、生成分词列表

对文本集中的文本进行中文分词，返回 分词列表，格式如下：

[‘word1’, ‘word2’, ‘word3’, …]

import jieba
text = '七月七日长生殿，夜半无人私语时。'
words = jieba.lcut(text)

print(words)

[‘七月’, ‘七日’, ‘长生殿’, ‘，’, ‘夜半’, ‘无人’, ‘私语’, ‘时’, ‘。’]

3.2、基于文本集建立`词典`，获取特征数

corpora.Dictionary：建立词典
len(dictionary.token2id)：词典中词的个数

from gensim import corpora
import jieba
# 文本集
text1 = '坚果果实'
text2 = '坚果实在好吃'
texts = [text1, text2]
# 将文本集生成分词列表
texts = [jieba.lcut(text) for text in texts]
print('文本集：', texts)
# 基于文本集建立词典
dictionary = corpora.Dictionary(texts)
print('词典：', dictionary)
# 提取词典特征数
feature_cnt = len(dictionary.token2id)
print('词典特征数：%d' % feature_cnt)

打印结果

文本集： [[‘坚果’, ‘果实’], [‘坚果’, ‘实在’, ‘好吃’]]
词典： Dictionary(4 unique tokens: [‘坚果’, ‘果实’, ‘好吃’, ‘实在’])
词典特征数：4

3.3、基于词典建立`语料库`

语料库即存放稀疏向量的列表

from gensim import corpora
import jieba
text1 = '来东京吃东京菜'
text2 = '东京啊东京啊东京'
texts = [text1, text2]
texts = [jieba.lcut(text) for text in texts]
dictionary = corpora.Dictionary(texts)
print('词典（字典）：', dictionary.token2id)
# 基于词典建立新的【语料库】
corpus = [dictionary.doc2bow(text) for text in texts]
print('语料库：', corpus)

打印结果

词典（字典）： {‘东京’: 0, ‘吃’: 1, ‘来’: 2, ‘菜’: 3, ‘啊’: 4}
语料库： [[(0, 2), (1, 1), (2, 1), (3, 1)], [(0, 3), (4, 2)]]

3.3.1、doc2bow函数

1、将所有单词取【集合】，并对每个单词分配一个ID号

以 ['东京', '啊', '东京', '啊', '东京']为例
对单词分配ID： 东京→ 0； 啊→ 4
变成： [0, 4, 0, 4, 0]

2、转换成稀疏向量

0有 3个，即表示为( 0, 3)
4有 2个，即表示为( 4, 2)
最终结果：[( 0, 3), ( 4, 2)]

3.3.2、搜索词也转成稀疏向量

from gensim import corpora
import jieba
text1 = '南方医院无痛人流'
text2 = '北方人流落南方'
texts = [text1, text2]
texts = [jieba.lcut(text) for text in texts]
dictionary = corpora.Dictionary(texts)
# 用【词典】把【搜索词】也转换为【稀疏向量】
keyword = '无痛人流'
kw_vector = dictionary.doc2bow(jieba.lcut(keyword))

print(kw_vector)

[(0, 1), (3, 1)]

3.4、用语料库训练`TF-IDF模型`

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

from gensim import corpora, models, similarities
import jieba
text1 = '南方医院无痛人流'
text2 = '北方人流浪到南方'
texts = [text1, text2]
texts = [jieba.lcut(text) for text in texts]
dictionary = corpora.Dictionary(texts)
feature_cnt = len(dictionary.token2id.keys())
corpus = [dictionary.doc2bow(text) for text in texts]
# 用语料库来训练TF-IDF模型
tfidf = models.TfidfModel(corpus)

print(tfidf)

TfidfModel(num_docs=2, num_nnz=9)

3.5、相似度计算

from gensim import corpora, models, similarities
import jieba
text1 = '无痛人流并非无痛'
text2 = '北方人流浪到南方'
texts = [text1, text2]
keyword = '无痛人流'
texts = [jieba.lcut(text) for text in texts]
dictionary = corpora.Dictionary(texts)
num_features = len(dictionary.token2id)
corpus = [dictionary.doc2bow(text) for text in texts]
tfidf = models.TfidfModel(corpus)
new_vec = dictionary.doc2bow(jieba.lcut(keyword))
# 相似度计算
index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features)
print('\nTF-IDF模型的稀疏向量集：')
for i in tfidf[corpus]:
    print(i)
print('\nTF-IDF模型的keyword稀疏向量：')
print(tfidf[new_vec])
print('\n相似度计算：')
sim = index[tfidf[new_vec]]
for i in range(len(sim)):
    print('第', i+1, '句话的相似度为：', sim[i])

4、附录

阅读扩展
jieba中文分词
 中文LDA模型
 Python各种文本相似度计算
 gensim实现搜索引擎
注释

En	Cn
corpus	n. 文集；[计]语料库（复数：`corpora`）
sparse	adj. 稀疏的
vector	n. 矢量
Sparse Matrix Similarity	稀疏矩阵相似性
word2vec	word to vector
doc2bow	document to `bag of words`（词袋）

52 条评论

L@BOY 2022.06.27
请问模型训练完成之后如何进行模型评估，能不能得到p,r,f值呢，如何衡量这个模型好不好，准确率高不高，我很困惑
- 小基基o_O回复L@BOY 2022.06.28
  貌似没有统一的评价指标，每个企业按自身需求会有一套评价体系
- L@BOY回复小基基o_O 2022.06.27
  这种有没有相关的评价指标，还是就只是单纯实现了检索，没有相关的评价指标
- 小基基o_O回复L@BOY 2022.06.27
  可以做人工测评，例如拿1000篇文本训练模型，然后输入搜索词，输出N个匹配度较高的结果，人工判别这N个结果中有M个是合适的，那么准确率=M/1000，精准率=M/N，召回率=M/应召回文本的总数
- L@BOY回复小基基o_O 2022.06.27
  怎么做能得出评价指标，能不能出一篇博客，让我参考参考[face]emoji:008.png[/face]
- 小基基o_O回复L@BOY 2022.06.27
  这个不是全监督算法，不能直接得到p,r,f值

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。
- 芒果西米露呀回复m0_69415250 2023.04.04
  请问您解决了吗？我现在碰到了相同的问题

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。

m0_69415250 2022.04.10
博主，我想通过这个代码来测试文档和文档1和2的相似度，这个文档是一个报告，非常多的内容，所以只能导入文档的路径，但是我导入路径，发现这个代码不能分文档内的词，只能把我导入路径给分了。麻烦有空教我一下，感激不尽。

qq_53118226 2020.12.09
大佬，有什么方法可以区别否定词，如何建立否定词库和双重否定词库
- 小基基o_O回复qq_53118226 2020.12.09
  去网上找否定词和双重否定词的词库，加入后深度学习就能学到一些的了，剩余一些否定语境学习不了的话，可以用正则表达式 https://yellow520.blog.youkuaiyun.com/article/details/101079649

程序员史迪仔 2020.06.23
你好，请问这个方法可以用于两个本地文档的查重吗
- 无敌蛋炒饭回复小基基o_O 2020.09.14
  [reply]Yellow_python[/reply]好的谢谢
- 小基基o_O回复无敌蛋炒饭 2020.09.14
  [reply]shenshuai00[/reply]查重有另一个范畴，你可百度【局部hash查重算法】【编辑距离】【汉明距离】等… https://blog.youkuaiyun.com/Yellow_python/article/details/81069692
- 无敌蛋炒饭回复小基基o_O 2020.09.14
  [reply]Yellow_python[/reply]你好，这个方法修改为两个文档的查重怎么修改我尝试将data2删去结果是【0.】特来请教你
- 程序员史迪仔回复小基基o_O 2020.06.23
  [reply]Yellow_python[/reply]好的，感谢
- 小基基o_O回复程序员史迪仔 2020.06.23
  [reply]weixin_44668898[/reply]数据量少的话建议用编辑距离： https://blog.youkuaiyun.com/Yellow_python/article/details/81069692