文本相似度

本文探讨了计算文本相似度的几种方法,包括基于编辑距离和集合相似性的Jaccard和Dice距离,以及利用TF-IDF特征构建的cos距离和欧式距离。此外,还介绍了如何通过词向量进行语义相似度计算,预训练模型如word2vec、glove和fastText在处理一词多义问题上的优势。这些技术在文本分析和信息检索中有着广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 编辑距离,集合相似度

def get_jaccard_distance(seq1, seq2):
    "seq1 and seq2 are two sequences, return value 0 means equal, 1 means totally different"
    set1, set2 = set(seq1), set(seq2)
    return 1 - len(set1 & set2) / float(len(set1 | set2))
def get_dice_distance(seq1, seq2):
    A, B = set(A), set(B)
    intersect = len(A.intersection(B))
    union = len(A) + len(B)
    return 2*intersect / union

2. 基于TF-IDF特征构建cos距离或欧式距离

TF-IDF表达了词级别的重要性,与集合相似度相比,包含的语义信息更多,对重要词和不重要词的区分度也更高

sklearn 的pairwise_distances和scipy的sparse点积操作(避免了for循环)可以实现

3. 先对句子里的词生成词向量,通过对词向量求和或者取平均值生成句子向量,用句子的向量夹角计算相似度

基于词向量的语义信息比TF-IDF特征更加丰富,由于有外部数据的预训练信息,对于TF-IDF特征无法处理的一词多义情况,基于embedding向量的相似性跟好

词向量也可以先经过TF-IDF值加权求和后再计算句子的相似度

预训练模型诸如word2vec, glove, fastText

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值