《别让“+”拖慢你的程序：Python 字符串拼接性能全解析与优化实战》

最新推荐文章于 2025-12-02 19:01:55 发布

原创

最新推荐文章于 2025-12-02 19:01:55 发布 · 504 阅读

CC 4.0 BY-SA版权

文章标签：

在一次线上日志分析项目中，我们需要将数百万条日志记录拼接成 JSON 格式的字符串。起初我们使用了最直观的方式：

result = ""
for line in lines:
    result += line

结果？程序运行缓慢，内存飙升，最终被运维“温柔”地关掉了进程。

这让我意识到：字符串拼接在 Python 中并不是你想象的那么简单。尤其在处理大规模文本数据时，错误的拼接方式可能让你的程序性能大打折扣。

这篇文章将带你深入理解 Python 字符串拼接背后的机制，分析不同拼接方式的性能差异，并通过实战案例和基准测试，教你如何写出高效、优雅的字符串处理代码。

在 Python 中，字符串是不可变对象（immutable）。这意味着每次对字符串进行修改（如拼接），都会创建一个新的字符串对象。

来看一个简单的例子：

s = "Hello"
s += " World"

这段代码的本质是：

s = s + " World"

每次拼接都会创建一个新的字符串对象，并复制原有内容。这在循环中频繁发生时，性能开销巨大。

我们来对比几种常见的拼接方式，并通过基准测试验证它们的性能差异。

def concat_plus(n):
    result = ""
    for i in range(n):
        result += str(i)
    return result

每次循环都创建新字符串，时间复杂度为 O(n²)，非常低效。

def concat_join(n):
    return ''.join(str(i) for i in range(n))

join() 会预先计算总长度并一次性分配内存，时间复杂度为 O(n)，性能优越。

from io import StringIO

def concat_stringio(n):
    buffer = StringIO()
    for i in range