应用-加速 Python 中的文本处理

目录

加速 Python 中的文本处理(很难)

如果你在 Python 中进行文本或字符串操作,当代码运行太慢时,你会怎么做?假设你的算法已经足够高效,下一步就是尝试使用比 Python 更快的替代方案:编译扩展。

不幸的是,这比看起来要难。有些选项没有提供简单的优化路径,而另一些实际上更慢。为了展示这一限制,我们将考虑一些替代方案:

  • 纯 Python,使用默认的 Python 解释器。
  • Cython。
  • mypyc
  • Rust。
  • 纯 Python,使用 PyPy 解释器。

我们还将讨论如果这些选项没有帮助时,可以采取的措施。


示例任务:姓名匹配

为了有具体的测量和讨论内容,我们将考虑一个具体的例子:匹配人名。

你是一名志愿者,参与当地志愿者团体,推动建设更多的受保护自行车道;自行车比开车便宜得多,也更可持续,而且在密集的城市中,它们通常和汽车一样快。采用的关键瓶颈是:更安全的基础设施。

在收集了请愿签名后,你希望将它们与城市选民登记数据库中的姓名进行匹配。这意味着你需要匹配两种格式的姓名:

  • 你收集的请愿签名是一个单独的字段,例如 "Itamar Turner-Trauring",由人工手动输入。由于是手动输入的,空格和大小写可能不一致。
  • 本地选民数据库中的姓名存储在两个字段中(名字和姓氏),并且是大写的,例如 "ITAMAR""TURNER-TRAURING"
姓名很复杂

如何将包含全名的单个字符串转换为包含名字和姓氏的两个字符串?

  1. 如果某人只写了两部分姓名,你将其分成两部分即可。
  2. 三部分姓名较少见,中间部分在选民数据库中有三种可能的反映方式:
    1. 省略"John Q. Public" 变为 ("JOHN", "PUBLIC")
    2. 作为名字的一部分"Marie Louise Mignot" 变为 ("MARIE LOUISE", "MIGNOT")
    3. 作为姓氏的一部分"Shakira Mebarak Ripoll" 变为 ("SHAKIRA", "MEBARAK RIPOLL")
  3. 最后,单部分和四部分或更多的姓名在你所在的地方非常罕见,因此你决定跳过它们。

为了规范化姓名,我们提出了以下纯 Python 实现:

def single_name_to_first_last_names(
    name: str,
) -> list[tuple[str, str]]:
    parts = name.upper().split()
    if len(parts) == 2:
        return [tuple(parts)]
    elif len(parts) == 3:
        a, b, c = parts
        return [(a, c), (a, f"{
     b} {
     c}"), (f"{
     a} {
     b}", c)]
    else:
        return []

给定一个姓名,它会返回一个 (first, last) 对的列表,我们可以尝试在选民数据库中查找。


其他实现

我们可以在普通的 Python 解释器(即 CPython)和有时更快的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李星星BruceL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值