什么是Shingling算法

最新推荐文章于 2021-03-30 14:19:45 发布

weixin_33939380

最新推荐文章于 2021-03-30 14:19:45 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：https://my.oschina.net/mickelfeng/blog/967576

本文介绍了Shingling算法的工作原理及应用，通过实例演示如何利用Shingling算法计算文档相似度，适用于网页去重等场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

shingling算法用于计算两个文档的相似度，例如，用于网页去重。维基百科对w-shingling的定义如下：

In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The w denotes the number of tokens in each shingle in the set.

维基百科用一个浅显的例子讲解了shingling算法的原理。比如，一个文档

"a rose is a rose is a rose"

分词后的词汇(token，语汇单元)集合是

(a,rose,is,a,rose,is, a, rose)

那么w=4的4-shingling就是集合:

{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }

去掉重复的子集合：

{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

给定shingle的大小,两个文档A和B的相似度 r 定义为:

r(A,B)=|S(A)∩S(B)| / |S(A)∪S(B)|

其中|A|表示集合A的大小。

因此,相似度是介于0和1之间的一个数值，且r(A,A)=1,即一个文档和它自身 100%相似。

扩展阅读

Shingling算法的更详细说明参见博客网页去重——Shingling算法，该文作者使用的类库是com.planetj.math.rabinhash.RabinHashFunction32
距离和相似度度量
- 范数和欧拉距离
- cosine similarity
- Jacard index
- Pearson correlation coefficient
- 编辑距离或者Levenshtein distance
- SimRank 相似
网页去重-算法篇
- I-Match
- Shingling
- SimHashing（ locality sensitive hash）
- Random Projection
- SpotSig
- combined
一个对算法进行解释的外文资料sketching

转载于:https://my.oschina.net/mickelfeng/blog/967576

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。