简单QA：TF-IDF句子相似度计算

最新推荐文章于 2025-10-23 17:44:02 发布

原创

最新推荐文章于 2025-10-23 17:44:02 发布 · 3.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#句子相似度

该博客介绍了如何利用TF-IDF模型计算句子之间的相似度，以匹配问题与答案。首先，对问题文件进行分词和去停用词处理，然后通过TF-IDF模型找出与模板问题相似的问题，返回相应答案。

简单介绍一下基于TF-IDF计算句子相似度，并得到问题对应的答案过程：

准备好问题文件，答案文件，问题与答案一一对应，例如：
对问题文件进行分词、去停用词预处理操作
建立TF-IDF模型，计算所提问题与模板问题中相似度，将满足相似度问题对应的答案返回。关键代码如下：

from gensim import corpora, models, similarities
from preprocess_data import cut_stop_words
import numpy as np
import linecache


def similarity(query_path, query):
    """
    :func: 计算问题与知识库中问题的相似度
    :param query_path: 问题文件所在路径
    :param query: 所提问题
    :return: 返回满足阈值要求的问题所在行索引——对应答案所在的行索引

    """
    class MyCorpus():
        def __iter__(self):
            for line in open(query_path, 'r', encoding='utf-8'):
                 yield line.split()

    Corp = MyCorpus()
    #