simhash

本文介绍了SimHash算法的基本原理及其在文本相似度计算中的应用。通过将高维特征向量映射到固定长度的哈希码,SimHash可以高效地识别近似重复的文档。文中还提到了使用64位向量表示文本的方法,并解释了如何通过加减操作得到文档的哈希值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

simhash


在我看来,这个也不算简单啊,计算量仍然很大,尤其是我比较讨厌的是feature的庞大,对文本来说。吼吼。


google在2002年的文章,Similarity Estimation Techniques from Rounding Algorithms。http://grunt1223.iteye.com/blog/964564

http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.html


DetectingNear-Duplicates for Web Crawling


网上有现有的代码可用。


我理解的一种比较夸张的方式,有一个假设为64位的向量,每个文本都是一个N维的向量,对所有文本的这N维向量进行hash,N>>64,当然可以用每个词在字典中的位置来表示。这样hash完,再对相应的值进行加减,这样得到这篇文章的和64位的向量相关的向量P,这个向量每一位上是一个数值,这个数值表征了hash后对应index上是+还是-,然后进行0和1的转换。然后就把这个文章的hash值得到了。

在google的应用中,说是3个值就是相似文档了。因此,在找相似文档时,可以用这种快速的方式进行。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值