山东大学项目实训-灵思考评-文本相似度的使用

苏sum

已于 2025-06-12 18:24:11 修改

阅读量138

点赞数 3

CC 4.0 BY-SA版权

分类专栏：山东大学项目实训——灵思考评——个人报告专栏文章标签： python

于 2025-05-19 11:04:57 首次发布

本文链接：https://blog.youkuaiyun.com/weixiangqingyun/article/details/148058903

山东大学项目实训——灵思考评——个人报告专栏专栏收录该内容

8 篇文章

订阅专栏

为了匹配相关的知识点，要比较知识点之间的相似度，但文本相似度计算可采用多种方法，

基于集合的方法（如Jaccard、Dice系数）适合短文本或关键词匹配，计算简单但忽略语义；
基于词频的方法（如TF-IDF+余弦相似度、BM25）适用于文档检索，考虑词频和重要性；
基于词嵌入的方法（如Word2Vec、Sentence-BERT）能捕捉语义信息，适合高精度匹配；
基于编辑距离的方法（如Levenshtein、Jaro-Winkler）用于拼写纠错或模糊匹配；
基于N-gram的方法可检测局部相似性，常用于抄袭识别。

结合我们的情况，我们首先选择了基于集合的方法，对二者进行初步的比较，作为一个参考，和筛选掉一部分无关的内容。

def word_score(sents_1, sents_2):
counter = 0
for sent in sents_1:
if sent in sents_2:
counter += 1
sents_similarity=counter/(len(sents_1) + len(sents_2) - counter)
return sents_similarity

我们采用jaccard方法，比较相似度。

sents_1：第一个句子集合（可迭代对象，如列表或字符串列表）。sents_2：第二个句子集合

分子：统计两个集合中共同出现的元素数量（counter）。
分母：两个集合的总唯一元素数（len(sents_1) + len(sents_2) - counter）。
遍历sents_1的每个元素，检查是否存在于sents_2中（if sent in sents_2）。
时间复杂度：最坏情况下为 O(n×m)O(n×m)（n和m为两个集合的长度）。

下面是相似度在外面代码中的具体使用，

# 两个三元组相关度得分
def list_score(list1,list2):
    score1 = word_score(''.join(list1),''.join(list2))
    score2 = cos_score(list1,list2)
    res =(score1 + score2) / 2
    # print("得分：", res)
    return res
#取得列表中相似度最大的元素
def kp_score(kp,list):
    res=0
    for l in list:
        s=cos_score(kp,l)
        res=max(s,res)
    # print("得分：", res)
    return res