1 项目介绍
基于Python的文本相似度计算系统,该技术通过各种方法完成了图像的预处理、特征提取以及相似性运算。简单地,操作系统先是对文本进行清洗和分词处理,进而提供关键词的词向量表。然后,通过余弦相似度等方法计算文本之间的相似度,并将结果展示在可视化界面上。
2、项目技术
项目后端框架:Java+ssm
项目前端框架:vue2,ssm
3、开发环境
后端:开发语言:python
框架:python,django
python版本:python3.6.8版本向上兼容
数据库:mysql5.7+
数据库工具:Navicat11+
开发软件:pycharm
前端:nodejs,vue,html
数据库:mysql
4 系统特点
主要是为了实现一个基于Python的文本相似度计算系统,通过对大量文本数据进行预处理,然后分析和训练,计算出文本之间的相似度,以帮助登录本系统的用户,快速获取所需信息。
5.2 系统模块设计
基于文本相似度计算的系统开发中,我们的系统首页包含了总用户数,总新闻数量,总操作数量,当前月份以及系统信息。如图:
图4:登陆界面
5.2.1 文本分析
在实现相似度计算时,第一步,用户输入文本,然后单击“开始计算”按钮。在第二步中,系统接收到输入的文本并将其发送到相似度计算模块进行相似度计算。在第三步,系统将计算结果和图表数据发送回前端,并在结果展示框中显示结果和图表。
本系统的可视化界面使用了Django框架自带的模板语言和Bootstrap前端框架,实现了简洁明了的交互界面。用户可以通过输入文本,快速获得相似度计算结果。首先是文本分析界面,如图3。本系统在输入时,输入页面包括一个文本相似度计算输入框和一个文本框,用户可以在输入框中输入想要输入的文本,点击开始计算按钮进行相似度计算。页面会显示及时显示计算结果,包括文本的匹配概率结果以及匹配最佳新闻文本。结果展示了系统的主要功能是将相似度计算的结果进行可视化如图所示:
图5:文本分析界面
相似度计算模块主要对提取出的特征进行相似度计算,本系统采用余弦相似度,该算法计算俩个文档进行比较时的两个向量之间夹角的余弦值。它是一种被广泛使用的文本相似性算法,并在许多 Python 库中实现,也是比较常见的一种算法。
系统的主页显示文本相似度计算的基本信息和功能,包括输入文本的文本框,相似度计算按钮和结果展示框。输入框允许用户输入任意文本进行相似度计算。在结果展示框中,将显示用户输入的两个文本的相似度结果,以及相似度得分的可视化。
5.2.2 文件分析
第二个模块就是文件分析模块,和文本分析所用算法相同,输入界面如图6:
图6:文件分析界面
选择文本文件后,点击打开
图7:文件分析的文件选择界面
再次点击开始计算后,显示匹配结果,如图8:
图8:文件分析的匹配结果界面