《从列表到生成器：Python 内存效率的真相与大文件读取的最佳实践》

最新推荐文章于 2025-12-31 23:52:26 发布

原创最新推荐文章于 2025-12-31 23:52:26 发布 · 875 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

学习笔记同时被 3 个专栏收录

344 篇文章

订阅专栏

课程教程

324 篇文章

订阅专栏

提升学习

95 篇文章

订阅专栏

2025博客之星年度评选已开启 10w+人浏览 2.8k人参与

《从列表到生成器：Python 内存效率的真相与大文件读取的最佳实践》

一、写在前面：为什么我们必须重新理解“内存效率”？

Python 诞生于 1991 年，凭借简洁优雅的语法、强大的标准库和丰富的生态系统，迅速成为 Web 开发、数据科学、人工智能、自动化运维等领域的首选语言。它被称为“胶水语言”，不仅因为它能轻松整合 C/C++、Java、Rust 等语言的能力，更因为它让复杂任务变得简单，让开发者能把更多时间投入到业务逻辑而不是底层细节。

在过去十多年里，我在多个大型项目中使用 Python：从处理 TB 级日志文件，到构建高并发爬虫系统，再到训练深度学习模型。一个反复出现的问题是：

为什么 Python 程序总是“莫名其妙”占用大量内存？

很多开发者以为 Python 的内存问题来自“垃圾回收不及时”或“对象太多”，但真正的根源往往是：

不恰当地使用列表
错误地读取大文件
忽视生成器的价值

因此，这篇文章将带你深入理解：

为什么列表比生成器更占内存？
Python 内存模型如何影响你的代码？
大文件读取到底应该怎么写？
如何用生成器构建高性能、低内存占用的数据处理流程？

无论你是刚入门的学习者，还是经验丰富的工程师，我希望这篇文章能帮助你写出更高效、更优雅、更专业的 Python 代码。

二、基础部分：从 Python 数据结构理解“内存占用”

1. 列表（list）为什么占内存？

Python 的列表是动态数组，其特点包括：

存储的是对象引用，而不是对象本身
为了减少扩容次数，会预留额外空间（over-allocation）
每个元素都需要一个指针（8 字节）
列表对象本身也有额外的元数据（长度、容量等）

例如：

lst = [i for i in range(1000000)]

这个列表会：

创建 100 万个整数对象（如果未缓存）
创建一个长度为 100 万的数组
每个元素占用 8 字节指针
列表本身占用额外空间

因此，列表的内存占用是线性增长的。

2. 生成器（generator）为什么几乎不占内存？

生成器的核心特性：

惰性计算（lazy evaluation）
一次只生成一个值
不保存所有数据

例如：

gen = (i for i in range(1000000))

此时：

不会创建 100 万个整数
不会创建数组
内存中只有一个生成器对象（几十字节）
每次调用 next(gen) 才生成一个新值

因此生成器的内存占用是常数级（O(1)）。

3. 直观对比：列表 vs 生成器

下面用代码展示两者的内存差异：

import sys

lst = [i for i in range(1000000)]
gen = (i for i in range(1000000))

print(sys.getsizeof(lst))  # 列表占用的内存
print(sys.getsizeof(gen))  # 生成器占用的内存

典型输出：

8697464   # ~8.7 MB
112        # 112 bytes

差距高达 8 万倍。

三、深入理解：为什么列表比生成器更占内存？

1. 列表需要一次性存储所有数据

列表的本质是：

把所有数据一次性加载到内存中

这意味着：

数据越大，占用越多
数据越多，GC 压力越大
容易导致内存溢出（OOM）

例如读取一个 5GB 的日志文件：

lines = f.readlines()  # 直接爆炸

这会尝试把 5GB 的内容全部读入内存。

2. 生成器只保存“状态”，不保存“数据”

生成器内部只保存：

当前执行位置
局部变量
下一次要返回的值

因此无论数据量多大，生成器都不会占用额外内存。

3. 列表的 over-allocation 机制

Python 列表为了减少扩容次数，会预留额外空间。

例如：

lst = []
for i in range(1000000):
    lst.append(i)

列表会不断扩容，每次扩容都会：

分配更大的内存块
拷贝旧数据
释放旧内存

这会导致：

内存碎片
内存峰值更高
性能下降

四、大文件读取：为什么不能用列表？

很多初学者喜欢这样写：

with open("big.log") as f:
    lines = f.readlines()

问题：

readlines() 会一次性读取整个文件
如果文件是 10GB，内存直接爆炸
列表会占用额外空间（指针 + 元数据）

正确方式应该是：

逐行读取
使用生成器
使用缓冲区

五、实战：大文件读取到底该怎么写？

下面给出多种最佳实践，从基础到高级。

方法 1：逐行读取（最常用）

with open("big.log") as f:
    for line in f:
        process(line)

优点：

内存占用极低
简洁优雅
Python 内部使用缓冲区优化

方法 2：使用生成器封装

def read_big_file(path):
    with open(path) as f:
        for line in f:
            yield line

for line in read_big_file("big.log"):
    process(line)

优点：

可复用
可组合
可与其他生成器链式调用

方法 3：分块读取（适合二进制文件）

def read_in_chunks(file, chunk_size=1024*1024):
    while True:
        data = file.read(chunk_size)
        if not data:
            break
        yield data

with open("big.bin", "rb") as f:
    for chunk in read_in_chunks(f):
        process(chunk)

适合：

视频文件
压缩包
图片
大型二进制数据

方法 4：使用 mmap（内存映射文件）

适合超大文件的随机访问。

import mmap

with open("big.log", "r") as f:
    with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as m:
        for line in iter(m.readline, b""):
            process(line)

优点：

不需要把文件读入内存
操作系统负责分页
性能极高

方法 5：使用 pathlib + 生成器组合

from pathlib import Path

def read_lines(path):
    with path.open() as f:
        yield from f

for line in read_lines(Path("big.log")):
    process(line)

六、生成器的高级用法：构建高性能数据管道

生成器不仅节省内存，还能构建“流式处理管道”。

例如：

def read_lines(path):
    with open(path) as f:
        for line in f:
            yield line

def filter_error(lines):
    for line in lines:
        if "ERROR" in line:
            yield line

def parse(lines):
    for line in lines:
        yield line.split()

pipeline = parse(filter_error(read_lines("big.log")))

for item in pipeline:
    process(item)

特点：

每一步都是惰性执行
内存占用始终为 O(1)
可无限扩展
适合大数据处理

这就是 Python 的“Unix 管道哲学”。

七、最佳实践总结：如何写出高性能、低内存的 Python 代码？

1. 优先使用生成器，而不是列表

列表适合小数据
生成器适合大数据、流式数据

2. 大文件读取永远不要用 read() 或 readlines()

替代方案：

for line in f
yield line
mmap

3. 构建生成器管道，而不是中间列表

避免：

data = [parse(line) for line in lines]

使用：

data = (parse(line) for line in lines)

4. 使用 itertools 提升性能

例如：

import itertools

for chunk in itertools.islice(f, 1000):
    ...

5. 使用 yield from 简化生成器链

八、前沿视角：Python 在大数据时代的内存优化趋势

随着 Python 在 AI、数据工程、云计算中的使用越来越广泛，内存效率变得越来越重要。

未来趋势包括：

Python 3.12+ 更高效的对象模型
PyPy 的 JIT 优化
Rust + Python 的混合开发
Polars 等新一代数据框架的兴起
AsyncIO + streaming 的普及

生成器和流式处理将成为主流。

九、总结与互动

本文我们深入讨论了：

为什么列表比生成器更占内存
Python 内存模型的底层原因
大文件读取的正确方式
如何构建高性能生成器管道
实战级代码示例与最佳实践

希望这篇文章能帮助你写出更高效、更专业、更优雅的 Python 代码。

我也非常想听听你的经验：

你在处理大文件时遇到过哪些坑？
你是否在项目中使用过生成器？
你希望我继续写哪些 Python 性能优化主题？

欢迎在评论区分享你的故事，我们一起交流、一起成长。