短文重复性检测综述,谷歌文本重复性检测: Detect duplicate content like Google

介绍近重复检测(NDD)在SEO中的重要性及其实现方法。对比分析了MinHash和SimHash算法,并推荐了一款名为Neardup的高效工具。

文本重复性检测一直是NLP等领域非常重要的一项研究工作,今天 #paperClub# 给大家翻译一下"Detect duplicate content like Google"

重复的内容是影响网站排名的最重要的负面因素之一。这就是为什么近重复检测 (NDD) 在任何 SEO 应执行的任务之间占据重要位置的原因。但是,尽管近乎重复检测是一个众所周知且经过深入研究的科学主题,但 SEO 工具市场并没有提供开箱即用的解决方案。

1. 近重复检测:内容与图像消歧

图像的近似重复检测也是一个重要的 SEO 主题。这是一个性能问题,一个站点是否加载一个图像版本而不是十个具有自己 URL 的相似图像。然而,本文的主题是文本内容之间的近似重复检测。图像的 NDD 在技术上是另一项任务,因为图像具有与文本文件不同的文件性质。对于图像之间的重复和相似性检测,市场上有一些很好的工具,但在内容 NDD 部分中并非如此。

2. 查找重复项和近似重复项,例如 Google!

我以两种算法为例描述了两种近似重复检测算法。一种经过测试的算法在可接受的时间内提供可靠的结果,因此您可以在 SEO 日常业务中使用。从 SEO 的角度来看,这两种方法,即使是输出不可靠的方法,也特别有趣,因为它们使用了算法,用于谷歌的近重复检测。

我在常规内容(HTML、DOCX、TXT、CSV、PDF)上测试了这两种分析方法,并且在有足够硬件资源的前提下,不限数量(在 30.000 个文件和 3.000 个字符上进行了测试)。

NDD算法

一般而言,近重复检测的工作原理

  • 文本文档被分割成带状疱疹
  • 对于每个 shingle,它是令牌(单词)的连续子序列,进行所谓的指纹计算,
  • 每个文档的瓦组相互比较,

相似性的定义:如果文档具有一定数量的相同指纹,则认为文档相似。

对我们来说,了解MinhashSimHash是什么、它们做什么、Google 如何使用它们、它们在哪里相似、它们如何相互区分以及它们在哪里失败是很重要的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值