目录
加速 Python 中的文本处理(很难)
如果你在 Python 中进行文本或字符串操作,当代码运行太慢时,你会怎么做?假设你的算法已经足够高效,下一步就是尝试使用比 Python 更快的替代方案:编译扩展。
不幸的是,这比看起来要难。有些选项没有提供简单的优化路径,而另一些实际上更慢。为了展示这一限制,我们将考虑一些替代方案:
- 纯 Python,使用默认的 Python 解释器。
- Cython。
mypyc
。- Rust。
- 纯 Python,使用 PyPy 解释器。
我们还将讨论如果这些选项没有帮助时,可以采取的措施。
示例任务:姓名匹配
为了有具体的测量和讨论内容,我们将考虑一个具体的例子:匹配人名。
你是一名志愿者,参与当地志愿者团体,推动建设更多的受保护自行车道;自行车比开车便宜得多,也更可持续,而且在密集的城市中,它们通常和汽车一样快。采用的关键瓶颈是:更安全的基础设施。
在收集了请愿签名后,你希望将它们与城市选民登记数据库中的姓名进行匹配。这意味着你需要匹配两种格式的姓名:
- 你收集的请愿签名是一个单独的字段,例如
"Itamar Turner-Trauring"
,由人工手动输入。由于是手动输入的,空格和大小写可能不一致。 - 本地选民数据库中的姓名存储在两个字段中(名字和姓氏),并且是大写的,例如
"ITAMAR"
和"TURNER-TRAURING"
。
姓名很复杂
如何将包含全名的单个字符串转换为包含名字和姓氏的两个字符串?
- 如果某人只写了两部分姓名,你将其分成两部分即可。
- 三部分姓名较少见,中间部分在选民数据库中有三种可能的反映方式:
- 省略:
"John Q. Public"
变为("JOHN", "PUBLIC")
。 - 作为名字的一部分:
"Marie Louise Mignot"
变为("MARIE LOUISE", "MIGNOT")
。 - 作为姓氏的一部分:
"Shakira Mebarak Ripoll"
变为("SHAKIRA", "MEBARAK RIPOLL")
。
- 省略:
- 最后,单部分和四部分或更多的姓名在你所在的地方非常罕见,因此你决定跳过它们。
为了规范化姓名,我们提出了以下纯 Python 实现:
def single_name_to_first_last_names(
name: str,
) -> list[tuple[str, str]]:
parts = name.upper().split()
if len(parts) == 2:
return [tuple(parts)]
elif len(parts) == 3:
a, b, c = parts
return [(a, c), (a, f"{
b} {
c}"), (f"{
a} {
b}", c)]
else:
return []
给定一个姓名,它会返回一个 (first, last)
对的列表,我们可以尝试在选民数据库中查找。
其他实现
我们可以在普通的 Python 解释器(即 CPython)和有时更快的