Python模糊匹配速度提升百倍？rapidfuzz库，让你的字符串处理“飞”起来！_rapidfuzz查找df字段中是一个字段相近记录-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43556377/article/details/145669885

还在为低效的模糊匹配烦恼？让你的Python字符串处理“飞”起来！

你是否遇到过以下场景？

搜索建议: 用户输入关键词时，需要快速给出相似的搜索建议。
拼写纠错: 自动纠正用户输入的错误拼写。
数据清洗: 在海量数据中，找出相似的记录，进行去重或合并。
商品名称匹配: 将不同来源的商品名称进行匹配，找出相同的商品。

在这些场景中，模糊匹配技术扮演着至关重要的角色。然而，传统的模糊匹配方法往往面临着速度慢、效率低的挑战，尤其是在处理大数据量时，更是让人头疼不已。

是时候告别低效的模糊匹配了！ 🎉

今天，我要向大家隆重介绍一款 Python 模糊匹配神器： rapidfuzz 库。它可以让你的 Python 字符串处理速度提升百倍甚至千倍！

🤔 什么是 rapidfuzz？

rapidfuzz 是一个 Python 库，专注于快速且准确地进行模糊字符串匹配。它基于 C++ 实现，并使用了优化的算法，能够在保证匹配精度的前提下，大幅提升匹配速度。

🌟 rapidfuzz 的核心特点：

⚡️ 速度快到飞起: 相比于传统的模糊匹配库，rapidfuzz 的速度提升非常显著，尤其是在处理大数据量时，优势更加明显。
🎯 精度高，匹配准: rapidfuzz 提供了多种模糊匹配算法，可以根据不同的应用场景选择合适的算法，保证匹配精度。
💪 功能强大，算法多样: 支持 Levenshtein 距离、Jaro-Winkler 距离等多种经典的模糊匹配算法，满足不同的匹配需求。
🐍 简单易用，轻松上手: rapidfuzz 的 API 设计简洁明了，易于学习和使用，可以快速集成到你的 Python 项目中。

为什么选择 rapidfuzz？

Talk is cheap, show me the code! 让我们用实际数据来对比一下 rapidfuzz 和其他常见的模糊匹配库（例如 fuzzywuzzy）的性能差异。

from rapidfuzz import fuzz
from fuzzywuzzy import fuzz as fuzzywuzzy_fuzz
import timeit

string1 = "apple inc"
string2 = "apple incorporated"

# 使用 rapidfuzz
rapidfuzz_time = timeit.timeit(lambda: fuzz.ratio(string1, string2), number=10000)

# 使用 fuzzywuzzy
fuzzywuzzy_time = timeit.timeit(lambda: fuzzywuzzy_fuzz.ratio(string1, string2), number=10000)

print(f"rapidfuzz time: {rapidfuzz_time:.4f} seconds")
print(f"fuzzywuzzy time: {fuzzywuzzy_time:.4f} seconds")

运行结果 (仅供参考，实际结果可能因环境而异):

rapidfuzz time: 0.0123 seconds
fuzzywuzzy time: 0.1547 seconds

可以看到，在上面的简单示例中，rapidfuzz 的速度是 fuzzywuzzy 的 10 倍以上！当处理更长的字符串或更大的数据集时，rapidfuzz 的优势会更加明显。

🚀 rapidfuzz 核心功能详解

rapidfuzz 库主要包含两个模块： fuzz 和 process。下面我们分别介绍这两个模块的常用功能和应用场景。

1. fuzz 模块：字符串相似度计算

fuzz 模块提供了一系列用于计算字符串相似度的函数。

fuzz.ratio(s1, s2): 计算两个字符串的相似度，返回一个 0 到 100 之间的整数，表示相似度百分比。
```
from rapidfuzz import fuzz

string1 = "apple inc"
string2 = "apple incorporated"

similarity = fuzz.ratio(string1, string2)
print(f"Similarity between '{string1}' and '{string2}': {similarity}")  # Output: 86
```
应用场景: 可以用于评估两个字符串的相似程度，例如判断用户输入的关键词与数据库中的关键词是否匹配。
fuzz.partial_ratio(s1, s2): 计算两个字符串的部分相似度。如果一个字符串是另一个字符串的子串，则可以得到较高的相似度。
```
from rapidfuzz import fuzz

string1 = "apple"
string2 = "the apple company"

similarity = fuzz.partial_ratio(string1, string2)
print(f"Partial similarity between '{string1}' and '{string2}': {similarity}")  # Output: 100
```
应用场景: 在一个长字符串中查找短字符串，例如在文章中查找关键词。

fuzz.token_sort_ratio(s1, s2): 忽略字符串中单词的顺序，对单词进行排序后再计算相似度。

from rapidfuzz import fuzz

string1 = "the quick brown fox"
string2 = "fox brown quick the"

similarity = fuzz.token_sort_ratio(string1, string2)
print(f"Token sort similarity between '{string1}' and '{string2}': {similarity}")  # Output: 100

应用场景: 处理词序不同的情况，例如比较用户输入的搜索关键词和数据库中的商品名称。

fuzz.token_set_ratio(s1, s2): 在 token_sort_ratio 的基础上，进一步考虑了字符串中单词的交集和并集。

from rapidfuzz import fuzz

string1 = "apple iphone 13 pro max"
string2 = "iphone 13"

similarity = fuzz.token_set_ratio(string1, string2)
print(f"Token set similarity between '{string1}' and '{string2}': {similarity}")  # Output: 100

应用场景: 更适用于处理包含大量重复单词或关键词的情况。

2. process 模块：从列表中提取最匹配的字符串

process 模块提供了一些方便的函数，可以从一个字符串列表中提取与目标字符串最匹配的字符串。

process.extract(query, choices, limit=5): 从 choices 列表中提取与 query 字符串最匹配的 limit 个字符串，并返回匹配度。

from rapidfuzz import process

query = "apple inc"
choices = ["apple inc", "apple incorporated", "banana inc", "orange inc"]

results = process.extract(query, choices, limit=2)
print(results)  # Output: [('apple inc', 100, 0), ('apple incorporated', 86, 1)]

应用场景: 实现搜索建议功能，根据用户输入的关键词，从数据库中提取最相关的搜索结果。

process.extractOne(query, choices): 从 choices 列表中提取与 query 字符串最匹配的一个字符串，并返回匹配度和索引。

from rapidfuzz import process

query = "apple inc"
choices = ["apple inc", "apple incorporated", "banana inc", "orange inc"]

result = process.extractOne(query, choices)
print(result)  # Output: ('apple inc', 100, 0)

应用场景: 自动纠正用户输入的错误拼写，从词库中找到最匹配的正确拼写。

总结与展望

rapidfuzz 库以其 闪电般的速度、 强大的功能 和 简洁的 API，成为了 Python 模糊匹配领域的佼佼者。无论是用于搜索建议、拼写纠错、数据清洗，还是商品名称匹配，rapidfuzz 都能帮助你轻松应对各种字符串处理任务。

快来试试 rapidfuzz 吧，让你的 Python 字符串处理“飞”起来！ 🚀

行动起来！

你还在等什么呢？赶紧在你的 Python 项目中安装 rapidfuzz 库：

pip install rapidfuzz

并开始体验它带来的速度与激情吧！

互动一下！

你还知道哪些模糊匹配的应用场景？欢迎在评论区留言分享你的想法！