提出一种新的的计算方法,该方法在计算量和内存消耗上会有所增大,但就其文本相似度计算精确度上来说,可以提高一个层次。
传统的基于语义分析的文本相似度计算方法,一般首先是根据某一语义词典,基于词语间的相似度来计算句子间的相似度,然后把句子组合成文本,综合计算文本之间的
相似度。这里面涉及到预处理操作非常庞大,对于大规模的长文本之间的相似性计算,运算量将非常之大,运算速度将受到很大的影响。基于以上原因,本节将根据语言网络相关理论,结合语义分析来对文本相似度作计算。
根据语言网络理论,可以用文本主题网络G 来表示一个文本D,也就是文本主题网络G 可以表示文本D 的主题,那么,通过这样的语言网络表示整个文本的主题网络,整个文本D 就是由一系列的主题连通子图来表示的。连通子图中的中心高频词和连接两个子图的相对低频词,就是对G 具有关键作用的词语,可以用来表征文本的特征。
传统的基于语义分析的文本相似度计算方法,一般首先是根据某一语义词典,基于词语间的相似度来计算句子间的相似度,然后把句子组合成文本,综合计算文本之间的
相似度。这里面涉及到预处理操作非常庞大,对于大规模的长文本之间的相似性计算,运算量将非常之大,运算速度将受到很大的影响。基于以上原因,本节将根据语言网络相关理论,结合语义分析来对文本相似度作计算。
根据语言网络理论,可以用文本主题网络G 来表示一个文本D,也就是文本主题网络G 可以表示文本D 的主题,那么,通过这样的语言网络表示整个文本的主题网络,整个文本D 就是由一系列的主题连通子图来表示的。连通子图中的中心高频词和连接两个子图的相对低频词,就是对G 具有关键作用的词语,可以用来表征文本的特征。
如下文本主题网络图中,中心词b,d,g 和连接词f 则是G 的特征词。
文本主题网络图
本方法中将根据文本主题网络图来提取文本特征向量,进而结合语义分析来计算文本间的相似性。
结合文本主题网络和语义分析的文本相似度计算,一方面通过文本主题网络来抽取文本的特征向量,特别通过计算文本特征词综合权值,来选取前TOP 的特征词作为特征向量,其他特征向量的抽取方法,能够大大降低文本特征向量的维度,计算量进而减小,提高了文本相似度的计算性能。在最终的文本相似度计算上,结合语义相似度来综合计算文本间的相似度,进一步提高了文本相似度计算的精确度。
本文提出了一种结合文本主题网络和语义分析的文本相似度计算新方法。该方法利用文本主题网络提取特征向量,并结合语义相似度进行综合计算,有效降低了计算量并提高了相似度计算的准确性。
1978

被折叠的 条评论
为什么被折叠?



