【项目】#防翟天临老师翻车神器# ——实现文本查重

该博客介绍了如何实现文本查重功能,包括文本分词、词频统计、构建词频向量和计算重复率。使用jieba分词工具处理不同编码问题,并通过余弦相似度计算文本重复率。

最近找实习的事基本上算是凉了,时间终于没那么紧迫了,学了点QT的皮毛给这个小工具搞了个简单的界面

不准说丑!!!!!!!!                                                                                                                                               2019-5-18

#############################################################################

 

最近的热点事件翟天临论文抄袭闹得社交网络沸沸扬扬,作为在学校生活的广大同学们肯定对于论文查重是都是有所耳闻的,为了不要像翟老师那样翻车,大家总会特别在意所谓的重复率,那么论文查重的功能到底是如何实现的呢?

这里我们将文本查重功能实现的程序分为四个步骤

  • 文本分词
  • 词频统计
  • 构成词频向量
  • 计算重复率

贴一下整体的代码 https://github.com/GreenDaySky/Function-text-rechecking(这里没有把jieba的工具包贴上来)

 

文本分词

文章都是以句子构成的,而句子是由许许多多的词构成的,所以其实查重机制的根本应当是根据词语进行的。

那我们就要思考一下如何进行从句子中提取词语完成分词操作了

这里贴一篇对于分词的介绍:https://www.cnb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值