概述
总文本相似度的计算方法主要分为三大类:一类是基于统计学的计算方法,此种方法在计算时没有考虑文本的句子结构信息和语义信息,计算的结果有时会与人对自然语言的理解不相符合;另一类是基于语义理解的计算方法,这种方法依赖于具有层次结构关系的语义词典,计算结果相对准确,与人对自然语言的理解较为符合;第三种类是基于深度学习的计算方法。
1、基于向量空间模型的计算方法
向量空间模型简称 VSM,是 Vector Space Model 的缩写,是应用较为广泛的一种信息检索模型。在此模型中,文本被看作是由一系列相互独立的词语组成的,若文档 D 中包含词语 t1,t2,…,tN,则文档表示为D(t1,t2,…,tN)。由于文档中各个词语对文档的重要程度不同,并且各个词语的重要程度对文本相似度的计算有很大的影响,因而可对文档中的每个词语赋以一个权值 w,以表示该词的权重,其表示如下:D(t1,w1;t2,w2;…,tN,wN),可简记为 D(w1,w2,…,wN),此时的 wk 即为词语 tk 的权重,1≤k≤N。这样,就把文本表示成了向量的形式,同时两文本的相似度问题也就可以通过两向量之间的夹角大小来计算了,夹角越大,两文本的相似度就越低。
基于向量空间模型的计算方法假设文本中的词语是相互独立的,因而可以用向量的形式来表示,这种表示方法简化了文本中词语之间的复杂关系,也使得文本的相似程度变得可以计算了。向量表示方法中词语的权值应该能够显示出该词语对整个文本的重要程度,一般用经过统计得到的词频来表示;向量的所有分量组合在一起,应该能够将此文本与其他文本区分开。
大量统计结果表明,文本中出现次数最多的词语往往是反映句子语法结构的虚词以及文本作者想要阐述某个问题时所用的核心词,如果是围绕同一核心问题的文本,其核心词汇应该是类似的,所以这两类词对文本相似度的计算都是没有用的。因此,最高频词和低频词都不适宜做文本的特征词,只有词频介于最高频和低频之间的这部分词汇才适合做特征词。
在文本中出现频率较高的词语应该具有较高的权值,因此,在计算词语对文

本文探讨了文本相似度计算的三种方法:基于向量空间模型(VSM)的统计学方法,利用词频和TF-IDF权重;语义理解方法,依赖层次词典如WordNet;以及深度学习的DSSM、CNN和RNN模型。着重讲解了VSM的权重计算和余弦相似度等度量,以及深度模型在捕捉上下文和序列信息的优势。
最低0.47元/天 解锁文章
1040

被折叠的 条评论
为什么被折叠?



