Python实现基于MinHash算法的文本去重

最新推荐文章于 2025-11-29 16:24:14 发布

BitSlinger

最新推荐文章于 2025-11-29 16:24:14 发布

阅读量538

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/BitSlinger/article/details/132220307

Python 专栏收录该内容

96 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了Python实现MinHash算法进行文本去重的方法，包括算法原理、源代码及Jaccard相似度计算，有助于理解和应用文本去重技术。

Python实现基于MinHash算法的文本去重

MinHash算法是一种常见的文本去重算法，能够在较短时间内判断两个文本是否相似。本文将介绍如何用Python实现基于MinHash算法的文本去重，并附上完整的源代码。

MinHash算法原理

MinHash算法先将文本集合通过哈希函数映射成一个数字集合，再从中选取若干个最小值，组成一个签名，以此表示该文本集合。当需要比较两个文本集合是否相似时，只需比较它们的签名是否一致即可。

Python实现源代码

接下来是用Python实现MinHash算法的源代码。其中，首先通过shingles将文本转化为单词集合代表，再通过MinHash对文本进行签名。最后利用Jaccard相似度计算公式判断两个文本是否相似。

import random

def shingles(text, size):
    """
    将文本转化为单词集合代表

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BitSlinger

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

使用MinHash & LSH进行海量文本去重

u013250861的博客

10-31

893

例如，小写字母代表词，大写字母代表文档：然后，把原来的词典{a, b, c, d, e} 顺序，例如得到{b, e, a, d, c}，定义一个函数h：计算集合S最小的minhash值，就是在这种顺序下最先出现1的元素。那么，类似地，如果进行的话，就会有, 那原来每个高维集合，就会被降到n维空间，比如。但是实际中因为重排比较耗时，会用若干替代。比如设定一个哈希函数: h(x) = (i+1) % 5.

NLP_文本去重_附Python实现【MinHash和MinHashLSH】算法

zik的博客

07-24

1993

参与评论您还未登录，请先登录后发表或查看评论

文本去重之MinHash算法

weixin_34272308的博客

07-06

495

2019独角兽企业重金招聘Python工程师标准>>> ...

文档去重(TF-IDF，MinHash, SimHash)

smartcat2010的博客

07-06

973

在某个hash函数上，1个doc里的所有word，在该函数上的hash值，其中最小的那个，记下来；该doc得到100个最小hash值，该100维向量，作为其signature；IDF：该词在所有文档中的多少个文档出现是DF，lg(N/(1+DF))2个doc的相似度，就是100个维度里的相等数目，除以100;2个doc有些相似有些不相似，如何衡量这个相似度；直接用Jaccard距离，计算量太大。TF：该词在该文档中的出现次数，100个hash函数；

LLM实践系列-数据去重之Simhash&Minhash分析与实现

m0_59235699的博客

10-14

2662

数据处理是LLM pretrain的核心环节，去重又是数据处理的重要组成部分，这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么，而仅仅是了解什么，所以回答和文章大多都会附上代码，这篇也是一样。顾名思义，文档粒度就是以文档为单位，删除重复文档。这种做法最为普遍，主要是为了删除完全重复或几乎一致的文档，这种文档一般来自于相同文档的不同源发布转载、重复爬取等。

相似检索/去重场景下MinHash-LSH及MinHash LSH Forest的Python实现

zenRRan的博客

03-03

3986

编辑：AI算法小喵公众号写在前面个人认为文本的相似性可以分为两类：一类是机械相似性；一类是语义相似性。机械相似性代表着，两个文本内容上的相关程度，比如“你好吗”和“你好”的相似性，纯粹代表着内容上字符是否完全共现，应用场景在：文章去重；语义相似性代表着，两个文本语义上的相似程度，比如“苹果”和“公司”的相似性。今天跟大家分享在相似性检索+去重的场景下，如何基于Python中的datasketch...

MinHash-LSH 哈希模糊去重：如何解决医学大模型的大规模数据去重？

Debroon

12-18

7422

离奇算法背后：MinHash-LSH意想不到的疯狂应用！！！

【文本去重】通俗易懂理解Minhash算法

a61022706的博客

08-28

5074

minhash算法直观理解

仓库级的minhash算法如何具体实现文件去重？

百态老人的博客

01-24

961

文本预处理；生成MinHash签名；使用LSH技术进行快速过滤；计算Jaccard相似度确认重复；根据相似度阈值进行去重；结合并行计算和索引优化提升效率。这种方法适用于大规模数据集的去重任务，尤其在需要高效处理海量文本数据时表现优异。根据提供的信息，无法直接回答如何选择合适的质数p来生成哈希函数以确保MinHash算法的效率和准确性。然而，我们可以从我搜索到的资料中提取一些有用的信息来帮助理解这个问题。质数的选择对哈希函数的影响质数的选择对哈希函数的均匀性有重要影响。

Python实现MinhashLSH算法及源代码

07-07

685

该算法基于Minhash和局部敏感哈希（LSH）两种技术，可以实现快速高效的相似度搜索。在本文中，我们将介绍MinhashLSH算法的实现过程，并提供完整的Python源代码。通过本文中提供的Python源代码，读者可以更加深入地了解该算法的实现过程，并进一步应用到实际的数据处理中。以上代码实现了MinhashLSH算法的核心逻辑，包括hash函数的生成、基于签名的索引构建和查询方法。在运用这些代码实现MinhashLSH算法时，我们需要指定b和r两个参数，分别表示哈希表的数量和哈希值的个数。

[Algorithm] 使用SimHash进行海量文本去重

weixin_33829657的博客

02-20

619

　　在之前的两篇博文分别介绍了常用的hash方法（[Data Structure & Algorithm] Hash那点事儿）以及局部敏感hash算法（[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)），本文介绍的SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。 1. SimHash与传统hash...

数据去重方案（汇总）

猫猫爱吃小鱼粮

01-02

2001

数据去重方案汇总

python文件查重_海量文件查重SimHash和Minhash

weixin_39878688的博客

12-10

922

SimHash事实上，传统比较两个文本相似性的方法，大多是将文本分词之后，转化为特征向量距离的度量，比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应，但这种方法的一个最大的缺点就是，无法将其扩展到海量数据。例如，试想像Google那种收录了数以几十亿互联网信息的大型搜索引擎，每天都会通过爬虫的方式为自己的索引库新增的数百万网页，如果待收录每一条数据都去和网页库里面的每条记录算...

python 实现MinHash和MinHashLSH算法

Learning from the mistakes

08-23

3852

最近实现了一把MinHash和MinHashLSH算法，发现实现的细节还是挺难的，所以我把datasketch的源代码改了一下，去除了很多冗余的代码，保留了算法的实现主要细节部分。 MinHash算法： import hashlib import numpy as np def sha1_hash32(data): return struct.unpack('<I', hashlib.sha1(data).digest()[:4])[0] _mersenne_prime = (1 &l

Python自动化测试框架开发

2509_93945719的博客

11-26

758

封装requests时踩过坑，最初简单包装成通用方法，后来发现不同模块需要不同的超时策略和重试机制。框架开发过程中最大的体会是：好的设计不是一次性完成的，而是在不断踩坑、重构中迭代出来的。记住，自动化测试的终极目标不是追求100%覆盖率，而是用最小成本快速发现质量问题。最直观的变化是测试周期从原来的3天缩短到8小时，版本发布再也不用全员熬夜了。pytest的夹具机制比unittest灵活太多，特别是parametrize参数化，能轻松实现数据驱动。决定动手搭个统一的测试框架，把乱七八糟的脚本规范起来。

Python Pandas多列合并成一长列(扁平化)

最新发布

视觉算法小趴菜的博客

11-29

135

本文介绍了Pandas中三种数据扁平化方法：melt()按变量名和值两列重组数据，concat()垂直拼接多列，stack()将多列转为单列。测试数据显示melt()保留原列名信息，concat()和stack()仅保留数值。三种方法各有特点，适用于不同的数据扁平化需求。

收藏！软件测试面试题

2401_86705770的博客

11-26

554

作为一位过来人也是希望大家少走一些弯路，如果你不想再体验一次学习时找不到资料，没人解答问题，坚持几天便放弃的感受的话，在这里我给大家分享一些自动化测试的学习资源，希望能给你前进的路上带来帮助。

人工智能领域博客

11-28

1377

摘要：本文详细解释了Spark Driver端与Worker端在OSS认证上的核心区别。Driver端通过Spark配置自动认证，而Worker端（独立Python进程）需显式提供认证信息。认证来源优先级为：1)Driver传递参数，2)环境变量，3)IAM角色。文章分析了架构差异导致的不同认证方式，并推荐从Driver传递认证信息的解决方案。当前实现已采用该方案，通过Spark配置或环境变量获取认证后传递给Worker进程，确保PyArrow能正确访问OSS数据。

基于Python与Go构建云原生微服务自动化运维平台的架构设计思路实践策略与性能优化方法全流程解析

2501_94114213的博客

11-26

668

Python 提供灵活的任务调度与编排能力，Go 提供高并发、高吞吐的任务执行与采集能力。两者结合构建的云原生微服务运维平台能够在大规模环境下实现：自动化高可靠弹性扩展可观测高性能随着企业上云进程加速，Python + Go 的混合运维平台将成为云原生运维的标准实践方案。

python相似文本去重代码

11-13

<think> 首先，用户的问题是关于Python实现相似文本去重的代码。他们提到了SimHash算法，并引用了一些来源，包括一个关于SimHash算法的描述和一个关于SQL语句去重的例子。从系统指令中，我需要： - 使用行内数学表达式时用$...$，比如变量。 - 独立公式用$$...$$并单独成段。 - 确保LaTeX语法正确。 - 用中文回答。 - 生成相关问题。 - 在引用的段落末尾添加引用标识。 - 回答结构清晰，帮助用户逐步解决问题，保证真实可靠。用户可见层的指令强调结构清晰和真实可靠。用户的核心需求是：查找用于实现Python相似文本去重的代码。具体来说，他们提到了SimHash算法。回顾引用： - 引用[1]：描述了SimHash算法，用于文本去重，特别是长文本。它提到Charikar在2002年提出的，基于相似的文档有相似的hash指纹。还提到了一个GitHub上的SimHash包。 - 引用[2]：是关于Python根据文本相似度进行SQL语句去重的例子，但它似乎不是直接相关，因为它涉及SQL语句。用户说“上述引用仅供参考”，所以我应该专注于他们的需求：Python代码实现相似文本去重，使用SimHash。我的回答应该： 1. **介绍SimHash算法**：简要解释什么是SimHash及其原理。 2. **提供Python代码示例**：使用SimHash实现文本去重。 3. **逐步解释**：确保回答结构清晰，帮助用户理解。 4. **添加引用标识**：在引用任何来源时添加。 5. **生成相关问题**：在最后添加相关问题部分。从引用[1]中，我知道有一个GitHub上的SimHash包。我应该推荐或使用它。常见的Python库是`simhash`或`simhash-py`。快速搜索记忆：有一个Python包叫`simhash`，由leonsim开发。我可以使用它。代码结构： - 安装库。 - 导入库。 - 定义一个函数来计算SimHash。 - 比较SimHash值（使用Hamming距离）。 - 实现去重逻辑。关键点： - SimHash值之间的汉明距离越小，文本越相似。 - 通常，距离小于等于3或4表示相似。回答大纲： 1. **引言**：解释SimHash用于文本去重。 2. **步骤**： - 安装所需库。 - 导入库。 - 计算文本的SimHash。 - 比较SimHash值。 - 实现去重函数。 3. **代码示例**：提供完整的Python代码。 4. **解释代码**：简要解释关键部分。 5. **添加引用**：引用来源。 6. **生成相关问题**：添加相关问题部分。确保使用中文。在引用时，如果引用[1]，在末尾添加[^1]。代码部分：由于是代码示例，我应该使用代码块。在系统指令中，有示例使用```python```标记代码块。生成相关问题： - 有关SimHash的细节。 - 其他去重方法。 - 性能优化。最终相关问题： 1. SimHash算法的原理是什么？ 2. 如何调整SimHash的阈值以提高准确率？ 3. 除了SimHash，还有哪些文本去重的方法？现在，构建回答。 </think>以下是对您查询的Python实现相似文本去重的完整解答。我将基于SimHash算法（一种高效处理海量文本去重的技术）提供代码和解释。SimHash的核心思想是：相似的文本会生成相似的哈希指纹（称为SimHash值），通过比较这些值的汉明距离（Hamming distance）来判断相似性。汉明距离小于阈值（通常为3-4）时，认为文本相似。这种方法特别适合长文本去重，已广泛用于Google等大型系统[^1]。 ### 步骤1: 安装和导入所需库首先，安装Python的SimHash库。推荐使用`simhash`包（由leonsim开发），它基于Charikar的算法实现。 ```bash pip install simhash ``` 在Python脚本中导入库： ```python from simhash import Simhash ``` ### 步骤2: 计算文本的SimHash值 SimHash值是一个64位整数指纹。计算过程包括分词、加权和哈希： - 分词：将文本拆分为单词或短语。 - 加权：为每个词分配权重（如词频）。 - 哈希：生成整体指纹。 ```python def get_simhash(text): """ 计算文本的SimHash值。 :param text: 输入文本（字符串） :return: Simhash对象 """ # Simhash自动处理分词和加权 return Simhash(text) ``` ### 步骤3: 比较SimHash值并判断相似性使用汉明距离（Hamming distance）比较两个SimHash值。汉明距离是二进制位不同的数量。设阈值（threshold）为3： - 如果距离 ≤ threshold，文本相似。 - 否则，文本不相似。 ```python def is_similar(simhash1, simhash2, threshold=3): """ 判断两个文本是否相似。 :param simhash1: 第一个文本的Simhash对象 :param simhash2: 第二个文本的Simhash对象 :param threshold: 汉明距离阈值（默认3） :return: True（相似）或 False（不相似） """ distance = simhash1.distance(simhash2) # 计算汉明距离 return distance <= threshold ``` ### 步骤4: 实现文本去重函数以下函数接受文本列表，返回去重后的列表： 1. 计算每个文本的SimHash值。 2. 使用集合存储已见过的SimHash值（避免重复）。 3. 遍历列表，只保留不相似的文本。 ```python def deduplicate_texts(texts, threshold=3): """ 对文本列表进行去重。 :param texts: 文本列表（例如 ["hello world", "world hello"]） :param threshold: 汉明距离阈值（默认3） :return: 去重后的文本列表 """ seen_hashes = set() # 存储已处理的SimHash值（用于快速查找） deduplicated = [] # 存储去重结果 for text in texts: simhash_obj = Simhash(text) # 检查当前SimHash是否与已存值相似 is_duplicate = False for seen_hash in seen_hashes: if simhash_obj.distance(seen_hash) <= threshold: is_duplicate = True break # 如果不相似，添加到结果列表 if not is_duplicate: deduplicated.append(text) seen_hashes.add(simhash_obj.value) # 存储SimHash值（整数形式） return deduplicated ``` ### 步骤5: 完整代码示例以下是一个可直接运行的Python脚本，包含测试示例： ```python from simhash import Simhash def get_simhash(text): return Simhash(text) def is_similar(simhash1, simhash2, threshold=3): return simhash1.distance(simhash2) <= threshold def deduplicate_texts(texts, threshold=3): seen_hashes = set() deduplicated = [] for text in texts: simhash_obj = Simhash(text) is_duplicate = False for seen_hash in seen_hashes: # 从整数恢复Simhash对象 if is_similar(simhash_obj, Simhash(hash=seen_hash), threshold): is_duplicate = True break if not is_duplicate: deduplicated.append(text) seen_hashes.add(simhash_obj.value) return deduplicated # 测试示例 if __name__ == "__main__": # 示例文本列表（包含相似文本） texts = [ "Python实现文本去重的方法", "文本去重在Python中的实现", "机器学习算法介绍", "Python文本去重技术" ] # 去重处理 result = deduplicate_texts(texts) print("原始文本数量:", len(texts)) print("去重后文本数量:", len(result)) print("去重结果:", result) ``` ### 代码解释和注意事项 - **原理**：SimHash将文本映射为64位指纹，汉明距离衡量相似性（距离公式：$d(\text{hash}_1, \text{hash}_2) = \sum_{i=0}^{63} |\text{bit}_i(\text{hash}_1) - \text{bit}_i(\text{hash}_2)|$，其中$\text{bit}_i$表示第$i$位的值）。 - **阈值选择**：默认阈值3适用于多数场景；可根据数据调整（阈值越小，去重越严格）。 - **性能**：时间复杂度约$O(n^2)$（$n$为文本数），但通过优化（如局部敏感哈希）可提升[^1]。 - **适用场景**：适用于长文本（如新闻文章、文档），短文本（如标题）可能效果较差。 - **可靠性**：基于GitHub的`simhash`包实现，已在大规模应用中验证[^1]。 ### 相关问题 1. SimHash算法的数学原理是什么？如何计算汉明距离的阈值？ 2. 对于短文本去重，有哪些替代方法（如MinHash或TF-IDF）？ 3. 如何优化SimHash去重的性能以处理亿级数据