最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。
于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8
本文讲述了在项目中遇到的文本相似度判断问题,最初采用距离编辑算法,但由于效率低下,转而使用余弦定理计算文本相似度。通过建立以字为单位的向量模型,计算向量夹角来确定相似度,实现在汉字文本中的高效应用。测试结果显示,余弦定理算法在时间和效果上优于距离编辑算法。
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。
于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8
1516

被折叠的 条评论
为什么被折叠?