1. simhash的算法原理
https://github.com/1e0ng/simhash
https://github.com/1e0ng/simhashsimhash的中文实现(python) - 简书最近工作上需要处理文本相似度的问题,一共5万多个文档;第一步,是先是要进行颗粒度较粗的,发现基本相似的文档,进行基本的 “聚类”;第二步,针对相似的文档,然后进行详细的比较;...https://www.jianshu.com/p/1187fb7c59c5GitHub - tianlian0/duplicate-check-sample: 文本查重SDK,可用于论文查重、标书查重、文档查重、作业查重、合同查重、防串标等场景。关联:duplicate check
https://github.com/tianlian0/duplicate-check-sample
2. 实战
本文介绍了SimHash算法的原理及其在文本相似度检测中的应用,包括分词、加权、合并和降维等步骤。通过Python实现,用于处理大量文档的初步聚类和详细比较。此外,还分享了实际的项目查重设计,适用于论文查重、科技项目申报审核等场景,提高工作效率。
https://www.cnblogs.com/baiboy/p/check.html
https://blog.youkuaiyun.com/singgel/article/details/106575438
1万+

被折叠的 条评论
为什么被折叠?



