深入 Python 内存世界：引用计数、标记-清除与分代回收的全景解析与实战指南

原创于 2025-12-20 06:19:30 发布 · 411 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #jvm

学习笔记同时被 3 个专栏收录

311 篇文章

订阅专栏

课程教程

291 篇文章

订阅专栏

提升学习

62 篇文章

订阅专栏

2025博客之星年度评选已开启 10w+人浏览 1.5k人参与

深入 Python 内存世界：引用计数、标记-清除与分代回收的全景解析与实战指南

在我这些年教授 Python、参与大型项目架构设计的经历中，最常被问到的问题之一是：

“Python 为什么有时候内存释放得很快，有时候又像‘泄漏’一样迟迟不释放？”

“引用计数、垃圾回收、分代回收到底是怎么工作的？”

“我该如何写出更高效、更节省内存的 Python 代码？”

这些问题的背后，指向的是 Python 内存管理机制的核心：引用计数（Reference Counting）+ 垃圾回收（GC）+ 分代回收（Generational GC）。

这篇文章，我将带你从 Python 的发展背景讲起，逐步深入 CPython 的内存管理体系，并结合大量代码示例、图示与实战经验，帮助你真正理解 Python 内存的运行方式，从而写出更高效、更稳定的代码。

一、开篇：Python 为什么需要复杂的内存管理？

Python 自 1991 年诞生以来，以“简洁、优雅、可读性强”著称。它的设计哲学之一是：

让开发者专注于业务逻辑，而不是内存管理。

不像 C/C++ 需要手动 malloc/free，Python 通过自动内存管理（Automatic Memory Management）让开发者摆脱繁琐的内存操作。

随着 Python 在 Web、数据科学、人工智能、自动化等领域的广泛应用，内存管理的重要性愈发凸显：

大规模数据处理需要高效的内存回收
长生命周期服务（如 Web 服务）需要避免内存泄漏
高并发场景需要减少 GC 停顿
科学计算需要避免不必要的内存复制

因此，理解 Python 内存管理机制，不仅是写好 Python 的基础，更是迈向高级开发者的必经之路。

二、Python 内存管理全景图

Python（准确来说是 CPython）采用三层内存管理体系：

┌──────────────────────────────┐
│      操作系统内存管理层       │
└──────────────────────────────┘
            ▲
            │
┌──────────────────────────────┐
│      Python 内存管理器        │
│  (对象池、Arena、Pool、Block) │
└──────────────────────────────┘
            ▲
            │
┌──────────────────────────────┐
│   垃圾回收机制（GC）          │
│ 引用计数 + 标记清除 + 分代回收 │
└──────────────────────────────┘

其中：

引用计数：实时回收大部分对象
标记-清除：解决循环引用
分代回收：提高 GC 性能

接下来我们逐一拆解。

三、引用计数：Python 内存管理的第一道防线

引用计数是 CPython 的核心机制，每个对象都有一个引用计数器 ob_refcnt。

当：

一个变量指向对象 → 引用计数 +1
一个变量不再指向对象 → 引用计数 -1
引用计数变为 0 → 内存立即释放

✅ 示例：引用计数的变化

import sys

a = []  
print(sys.getrefcount(a))  # 通常是 2：a + getrefcount 的临时引用

b = a
print(sys.getrefcount(a))  # 3

del b
print(sys.getrefcount(a))  # 2

✅ 引用计数的优点

实时回收：不需要等待 GC
简单高效：大部分对象生命周期短，引用计数能快速处理
可预测性强：对象何时释放一目了然

✅ 引用计数的致命缺陷：循环引用

a = []
b = []
a.append(b)
b.append(a)

此时：

a 引用 b
b 引用 a
两者引用计数永远不为 0

这就是为什么 Python 还需要 标记-清除。

四、标记-清除：解决循环引用的关键机制

标记-清除（Mark-Sweep）是 Python 垃圾回收器（GC）用于处理循环引用的算法。

它的工作流程：

标记阶段：从根对象出发，标记所有可达对象
清除阶段：未被标记的对象即为垃圾，释放内存

✅ 什么时候触发标记-清除？

Python 不会实时执行标记-清除，而是由 GC 模块根据阈值触发。

触发条件：

当前代的“分配次数 - 释放次数”超过阈值
手动调用 gc.collect()

✅ 示例：手动触发 GC

import gc

gc.set_debug(gc.DEBUG_STATS)

a = []
b = []
a.append(b)
b.append(a)

del a
del b

gc.collect()  # 强制执行标记-清除

输出中会显示回收的对象数量。

五、分代回收：让 GC 更高效的秘密武器

Python 将对象分为三代：

第 0 代：新创建的对象（数量最多）
第 1 代：经过一次 GC 后仍存活的对象
第 2 代：长期存活的对象（数量最少）

为什么要分代？

因为大部分对象“朝生暮死”，少部分对象长期存在。

分代回收的策略：

第 0 代：最频繁回收
第 1 代：较少回收
第 2 代：最少回收

这样可以减少 GC 开销，提高性能。

✅ 分代回收的触发条件

每一代都有一个阈值：

import gc
print(gc.get_threshold())

输出示例：

(700, 10, 10)

含义：

第 0 代：分配次数 - 释放次数 > 700 → 触发 GC
第 1 代：第 0 代 GC 10 次 → 触发第 1 代 GC
第 2 代：第 1 代 GC 10 次 → 触发第 2 代 GC

✅ 示例：查看各代对象数量

import gc
print(gc.get_count())

输出示例：

(450, 5, 1)

表示：

第 0 代：450 个对象
第 1 代：5 个对象
第 2 代：1 个对象

六、三者之间的关系：引用计数 + 标记清除 + 分代回收

我们用一张图总结：

┌──────────────────────────────┐
│        引用计数（实时）       │
│  大部分对象在此阶段被回收     │
└──────────────────────────────┘
                ↓
┌──────────────────────────────┐
│      标记-清除（处理循环引用）│
│  当阈值触发或手动调用时执行   │
└──────────────────────────────┘
                ↓
┌──────────────────────────────┐
│        分代回收（优化性能）   │
│  第 0 代 → 第 1 代 → 第 2 代  │
└──────────────────────────────┘

三者协同工作，使 Python 内存管理既高效又安全。

七、实战：如何写出更节省内存的 Python 代码？

下面结合实际项目经验，给出可操作的优化策略。

✅ 1. 避免不必要的循环引用

常见错误：

class Node:
    def __init__(self):
        self.parent = None
        self.child = None

解决方案：

使用弱引用 weakref

import weakref

class Node:
    def __init__(self):
        self.parent = None
        self.child = None

a = Node()
b = Node()

a.child = b
b.parent = weakref.ref(a)

✅ 2. 使用生成器减少内存占用

错误示例：

data = [i for i in range(10_000_000)]

正确示例：

data = (i for i in range(10_000_000))

生成器不占用大量内存。

✅ 3. 手动触发 GC（适用于长生命周期服务）

例如 Web 服务：

import gc

def handle_request():
    ...
    if need_cleanup:
        gc.collect()

✅ 4. 使用 `slots` 减少对象内存占用

class User:
    __slots__ = ("name", "age")

减少 30%~40% 内存。

✅ 5. 避免频繁创建小对象（如字符串）

使用缓存：

from functools import lru_cache

@lru_cache()
def get_status(code):
    return f"status_{code}"

八、前沿视角：Python 内存管理的未来趋势

随着 Python 在 AI、数据密集型领域的应用不断扩大，内存管理也在持续演进：

Python 3.12 引入更快的 GC
PEP 683：永久冻结对象，减少 GC 压力
PyPy、Pyston 等替代解释器提供更先进的 GC
AI 框架（如 PyTorch）引入自定义内存池

未来 Python 的内存管理将更加智能、高效。

九、总结

本文从 Python 的发展背景讲起，系统讲解了：

✅ 引用计数的原理与触发时机
✅ 标记-清除如何处理循环引用
✅ 分代回收如何提升 GC 性能
✅ 三者之间的协作关系
✅ 大量代码示例与实战优化策略
✅ Python 内存管理的未来趋势

希望你读完后，不仅理解了 Python 内存管理机制，更能在实际项目中写出更高效、更稳定的代码。

十、互动时间

我很想听听你的经验：

你在 Python 项目中遇到过哪些内存问题
你是否手动调优过 GC
你认为 Python 的内存管理还有哪些改进空间

欢迎留言交流，我们一起探索 Python 的更多可能性。

深入 Python 内存世界：引用计数、标记-清除与分代回收的全景解析与实战指南

深入 Python 内存世界：引用计数、标记-清除与分代回收的全景解析与实战指南

一、开篇：Python 为什么需要复杂的内存管理？

二、Python 内存管理全景图

三、引用计数：Python 内存管理的第一道防线

✅ 示例：引用计数的变化

✅ 引用计数的优点

✅ 引用计数的致命缺陷：循环引用

四、标记-清除：解决循环引用的关键机制

✅ 什么时候触发标记-清除？

✅ 示例：手动触发 GC

五、分代回收：让 GC 更高效的秘密武器

✅ 分代回收的触发条件

✅ 示例：查看各代对象数量

六、三者之间的关系：引用计数 + 标记清除 + 分代回收

七、实战：如何写出更节省内存的 Python 代码？

✅ 1. 避免不必要的循环引用

✅ 2. 使用生成器减少内存占用

✅ 3. 手动触发 GC（适用于长生命周期服务）

✅ 4. 使用 __slots__ 减少对象内存占用

✅ 5. 避免频繁创建小对象（如字符串）

八、前沿视角：Python 内存管理的未来趋势

九、总结

十、互动时间

✅ 4. 使用 `slots` 减少对象内存占用