《深入 Python 内存世界：内存泄漏成因全解析与 weakref 的正确使用姿势》

最新推荐文章于 2025-12-31 23:52:26 发布

原创最新推荐文章于 2025-12-31 23:52:26 发布 · 573 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #jvm

学习笔记同时被 3 个专栏收录

344 篇文章

订阅专栏

课程教程

324 篇文章

订阅专栏

提升学习

95 篇文章

订阅专栏

2025博客之星年度评选已开启 10w+人浏览 2.8k人参与

《深入 Python 内存世界：内存泄漏成因全解析与 weakref 的正确使用姿势》

一、写在前面：为什么我们必须重视 Python 的内存问题？

如果你已经使用 Python 一段时间，你可能听过一句话：

“Python 有垃圾回收机制，所以不会内存泄漏。”

这句话对，也不对。

Python 的确拥有强大的垃圾回收系统（GC），包括引用计数、分代回收、循环检测等机制。但在真实项目中，我见过太多团队因为内存泄漏导致服务重启、爬虫崩溃、数据分析任务 OOM、Web 服务响应变慢。

Python 的内存泄漏往往不是“语言本身的问题”，而是开发者对其内存模型理解不够深入。

作为一名长期在大型项目中使用 Python 的开发者，我深知内存问题的隐蔽性与破坏力。因此，这篇文章将带你从基础到进阶，系统理解：

Python 内存泄漏到底可能出现在哪里？
哪些代码模式最容易踩坑？
weakref 是否能解决循环引用？
如何正确使用 weakref？
如何监控、定位、修复内存泄漏？

无论你是初学者还是资深开发者，这篇文章都能帮助你构建对 Python 内存管理的深刻理解。

二、Python 内存管理机制快速回顾

要理解内存泄漏，必须先理解 Python 如何管理内存。

1. 引用计数（Reference Counting）

Python 的核心垃圾回收机制是引用计数。

每个对象都有一个 ob_refcnt 计数器，当：

有变量引用它 → 计数 +1
引用消失 → 计数 -1

当计数归零，对象立即被释放。

这是 Python 内存管理的基础，也是 CPython 高性能的关键。

2. 循环垃圾回收（GC）

引用计数无法处理循环引用，例如：

a = []
b = []
a.append(b)
b.append(a)

此时 a 和 b 的引用计数永远不为 0。

Python 的 GC 会定期扫描对象图，找出不可达的循环引用并释放。

3. 内存池（pymalloc）

Python 使用内存池管理小对象，避免频繁向操作系统申请内存。

这意味着：

即使对象被释放，Python 也可能不会立即把内存还给操作系统。

这不是泄漏，只是内存池机制。

三、Python 内存泄漏可能出现在哪里？

下面进入本文核心：Python 内存泄漏的真实来源。

1. 循环引用 + 自定义 `del`

这是 Python 内存泄漏最经典的来源。

为什么？

因为如果对象定义了 __del__ 方法，GC 不知道如何安全地销毁循环引用对象，会将其放入 gc.garbage，导致无法释放。

示例：

class Node:
    def __init__(self):
        self.other = None

    def __del__(self):
        print("deleted")

a = Node()
b = Node()
a.other = b
b.other = a

此时：

a 和 b 形成循环引用
又定义了 __del__
GC 不会回收它们

解决方案：避免在有循环引用的对象中定义 __del__。

2. 全局变量或缓存未清理

例如：

cache = {}

def load_data(key):
    if key not in cache:
        cache[key] = get_big_data()
    return cache[key]

如果 key 不断增加，cache 会无限增长。

解决方案：

使用 LRU 缓存（functools.lru_cache）
使用 weakref.WeakValueDictionary
定期清理缓存

3. 大量未关闭的资源（文件、socket、数据库连接）

例如：

def read_file():
    f = open("data.txt")
    return f.read()

如果忘记关闭文件，文件描述符会泄漏。

正确写法：

with open("data.txt") as f:
    data = f.read()

上下文管理器是资源管理的最佳实践。

4. 容器对象持有大量引用

例如：

lst = []
while True:
    lst.append("x" * 1000000)

列表不断增长，内存自然泄漏。

5. C 扩展模块的 Bug

例如：

numpy
PIL
自定义 C 扩展

如果 C 代码没有正确释放内存，Python 无法感知。

6. 多线程导致的内存无法释放

某些线程对象不会被 GC 回收，尤其是：

daemon=False 的线程
线程中引用了大量对象

7. 闭包引用外部变量导致对象无法释放

示例：

def outer():
    big_data = [1] * 1000000
    def inner():
        print(big_data[0])
    return inner

f = outer()

big_data 永远不会释放，因为 inner 引用了它。

四、weakref 能解决循环引用吗？

这是本文的第二个核心问题。

1. weakref 是什么？

weakref（弱引用）允许你引用一个对象，但不增加它的引用计数。

示例：

import weakref

class A:
    pass

a = A()
r = weakref.ref(a)

print(r())  # <__main__.A object>
del a
print(r())  # None

当对象被销毁后，weakref 自动失效。

2. weakref 能解决循环引用吗？

答案是：

weakref 可以避免循环引用，但不能“修复”已经形成的循环引用。

举例说明：

如果你这样写：

class Node:
    def __init__(self):
        self.other = None

a = Node()
b = Node()
a.other = b
b.other = a

这是一个循环引用。

如果你改成 weakref：

import weakref

class Node:
    def __init__(self):
        self.other = None

a = Node()
b = Node()
a.other = weakref.ref(b)
b.other = weakref.ref(a)

此时：

a → b 是弱引用
b → a 是弱引用
不会形成循环引用
对象可以正常释放

但 weakref 不能：

自动打破已有循环引用
回收带有 __del__ 的循环引用对象

3. weakref 的典型使用场景

场景 1：避免对象之间的强引用关系

例如 GUI 组件树、图结构等。

场景 2：缓存对象但不阻止其被回收

cache = weakref.WeakValueDictionary()

场景 3：观察对象生命周期

def callback(wr):
    print("object deleted")

a = A()
r = weakref.ref(a, callback)

五、实战：如何定位 Python 内存泄漏？

下面给你一套可直接用于生产环境的排查流程。

1. 使用 tracemalloc 追踪内存分配

import tracemalloc

tracemalloc.start()

# 运行你的代码
...

snapshot = tracemalloc.take_snapshot()
top_stats = snapshot.statistics('lineno')

for stat in top_stats[:10]:
    print(stat)

可以看到哪些代码行分配了最多内存。

2. 使用 objgraph 查找引用链

安装：

pip install objgraph

查找增长最快的对象：

import objgraph
objgraph.show_growth()

查看对象的引用链：

objgraph.show_backrefs(obj, filename='refs.png')

3. 使用 memory_profiler 分析函数级内存

from memory_profiler import profile

@profile
def test():
    ...

test()

4. 使用 Heapy 分析堆内存

pip install guppy3

六、最佳实践：如何避免 Python 内存泄漏？

以下是我多年项目经验总结的最佳实践。

1. 避免在循环引用对象中定义 `del`

如果必须使用，改用 weakref.finalize。

2. 使用 weakref 避免不必要的强引用

例如：

class Node:
    def __init__(self, parent):
        self.parent = weakref.ref(parent)

3. 使用 with 管理资源

包括：

文件
socket
数据库连接
线程池
进程池

4. 定期清理缓存

使用：

LRU 缓存
weakref 字典
TTL 缓存

5. 避免闭包引用大对象

改为参数传递。

6. 使用专业工具监控内存

tracemalloc
objgraph
memory_profiler

七、未来展望：Python 内存管理的演进方向

随着 Python 在 AI、数据科学、Web 服务中的使用越来越广泛，内存管理也在不断进化：

PyPy 的 JIT 与 GC 更智能
Python 3.12 引入更高效的内存布局
Cython、Numba 等工具让 Python 更接近 C 的性能
新一代框架（FastAPI、Ray）对内存管理提出更高要求

未来 Python 的内存管理将更加自动化、可观测、可调优。

八、总结与互动

本文我们系统讨论了：

Python 内存泄漏的真实来源
循环引用为何危险
weakref 的原理与正确使用方式
如何定位与修复内存泄漏
如何在项目中避免踩坑

希望这篇文章能帮助你在未来的项目中写出更高质量、更稳定的 Python 代码。

我想听听你的经验：

你在项目中遇到过哪些 Python 内存泄漏？
你是否使用过 weakref？效果如何？
你希望我继续写哪些 Python 内存管理相关的主题？

欢迎在评论区分享你的故事，我们一起交流、一起成长。

《深入 Python 内存世界：内存泄漏成因全解析与 weakref 的正确使用姿势》

《深入 Python 内存世界：内存泄漏成因全解析与 weakref 的正确使用姿势》

一、写在前面：为什么我们必须重视 Python 的内存问题？

二、Python 内存管理机制快速回顾

1. 引用计数（Reference Counting）

2. 循环垃圾回收（GC）

3. 内存池（pymalloc）

三、Python 内存泄漏可能出现在哪里？

1. 循环引用 + 自定义 __del__

为什么？

2. 全局变量或缓存未清理

解决方案：

3. 大量未关闭的资源（文件、socket、数据库连接）

正确写法：

4. 容器对象持有大量引用

5. C 扩展模块的 Bug

6. 多线程导致的内存无法释放

7. 闭包引用外部变量导致对象无法释放

四、weakref 能解决循环引用吗？

1. weakref 是什么？

2. weakref 能解决循环引用吗？

举例说明：

但 weakref 不能：

3. weakref 的典型使用场景

场景 1：避免对象之间的强引用关系

场景 2：缓存对象但不阻止其被回收

场景 3：观察对象生命周期

五、实战：如何定位 Python 内存泄漏？

1. 使用 tracemalloc 追踪内存分配

2. 使用 objgraph 查找引用链

3. 使用 memory_profiler 分析函数级内存

4. 使用 Heapy 分析堆内存

六、最佳实践：如何避免 Python 内存泄漏？

1. 避免在循环引用对象中定义 __del__

2. 使用 weakref 避免不必要的强引用

3. 使用 with 管理资源

4. 定期清理缓存

5. 避免闭包引用大对象

6. 使用专业工具监控内存

七、未来展望：Python 内存管理的演进方向

八、总结与互动

我想听听你的经验：

1. 循环引用 + 自定义 `del`

1. 避免在循环引用对象中定义 `del`