因为申请的学校的项目,准备写个文本查重。
浏览了些网上的资料,结合下自己的实际需求,觉得simhash算法比较合适一些。
先附上一些参考资料吧
需求总结不错
https://blog.youkuaiyun.com/weixin_43098787/article/details/82836140
simhash算法入门了解
https://blog.youkuaiyun.com/chinafire525/article/details/78645956
simhash更全面的介绍(引用文献不错)
https://blog.youkuaiyun.com/sunny_ss12/article/details/46958155
下面就是一些实现了:
https://blog.youkuaiyun.com/weixin_43098787/article/details/82838348
py3:https://blog.youkuaiyun.com/gzt940726/article/details/80460419
https://www.cnblogs.com/Liqiongyu/p/6213323.html
高效计算二进制序列中1的个数:
https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html
simhash海量文本去重工程化
https://yuerblog.cc/2018/05/30/simhash-text-unique-arch/
汉明距离
http://www.lanceyan.com/tag/simhash
关键词提取
https://blog.youkuaiyun.com/gzt940726/article/details/80256011