应用-加速 Python 中的文本处理

李星星BruceL

于 2025-03-21 10:08:50 发布

阅读量951

点赞数 20

分类专栏：自动化测试文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/liluo0815481/article/details/146229772

版权

目录

加速 Python 中的文本处理（很难）

如果你在 Python 中进行文本或字符串操作，当代码运行太慢时，你会怎么做？假设你的算法已经足够高效，下一步就是尝试使用比 Python 更快的替代方案：编译扩展。

不幸的是，这比看起来要难。有些选项没有提供简单的优化路径，而另一些实际上更慢。为了展示这一限制，我们将考虑一些替代方案：

纯 Python，使用默认的 Python 解释器。
Cython。
mypyc。
Rust。
纯 Python，使用 PyPy 解释器。

我们还将讨论如果这些选项没有帮助时，可以采取的措施。

示例任务：姓名匹配

为了有具体的测量和讨论内容，我们将考虑一个具体的例子：匹配人名。

你是一名志愿者，参与当地志愿者团体，推动建设更多的受保护自行车道；自行车比开车便宜得多，也更可持续，而且在密集的城市中，它们通常和汽车一样快。采用的关键瓶颈是：更安全的基础设施。

在收集了请愿签名后，你希望将它们与城市选民登记数据库中的姓名进行匹配。这意味着你需要匹配两种格式的姓名：

你收集的请愿签名是一个单独的字段，例如 "Itamar Turner-Trauring"，由人工手动输入。由于是手动输入的，空格和大小写可能不一致。
本地选民数据库中的姓名存储在两个字段中（名字和姓氏），并且是大写的，例如 "ITAMAR" 和 "TURNER-TRAURING"。

姓名很复杂

如何将包含全名的单个字符串转换为包含名字和姓氏的两个字符串？

如果某人只写了两部分姓名，你将其分成两部分即可。
三部分姓名较少见，中间部分在选民数据库中有三种可能的反映方式：
1. 省略："John Q. Public" 变为 ("JOHN", "PUBLIC")。
2. 作为名字的一部分："Marie Louise Mignot" 变为 ("MARIE LOUISE", "MIGNOT")。
3. 作为姓氏的一部分："Shakira Mebarak Ripoll" 变为 ("SHAKIRA", "MEBARAK RIPOLL")。
最后，单部分和四部分或更多的姓名在你所在的地方非常罕见，因此你决定跳过它们。

为了规范化姓名，我们提出了以下纯 Python 实现：

def single_name_to_first_last_names(
    name: str,
) -> list[tuple[str, str]]:
    parts = name.upper().split()
    if len(parts) == 2:
        return [tuple(parts)]
    elif len(parts) == 3:
        a, b, c = parts
        return [(a, c), (a, f"{
     b} {
     c}"), (f"{
     a} {
     b}", c)]
    else:
        return []

给定一个姓名，它会返回一个 (first, last) 对的列表，我们可以尝试在选民数据库中查找。

其他实现

我们可以在普通的 Python 解释器（即 CPython）和有时更快的

最低0.47元/天解锁文章

李星星BruceL

博客等级

码龄13年

340
原创

3478
点赞

2393
收藏

1601
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

性能2- 查找 Celery 任务中的性能瓶颈
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。通过 funboost web manager 全方位可视化管理和查看你的函数运行情况，无需看文件日志。 https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html pip install funboost
Docker安全扫描
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619706214。
Python Docker 构建
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619679357。

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李星星BruceL 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。