Python/CPython 垃圾回收机制深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00809/article/details/148324149

Python/CPython 垃圾回收机制深度解析

Python/CPython 采用了一套独特的垃圾回收机制，主要基于引用计数，并辅以循环垃圾收集器来处理循环引用问题。本文将深入剖析这套机制的设计原理、实现细节以及优化策略。

CPython 的核心垃圾回收机制是引用计数。每个对象都会记录被引用的次数：

import sys
x = object()
print(sys.getrefcount(x))  # 输出2（临时引用+变量x）
y = x
print(sys.getrefcount(x))  # 输出3
del y
print(sys.getrefcount(x))  # 输出2

当引用计数归零时，对象会被立即回收。这种机制简单高效，但存在一个致命缺陷——无法处理循环引用。

循环引用是指一组对象相互引用，形成一个环：

container = []
container.append(container)  # 自引用
del container  # 引用计数不会归零

为解决这个问题，CPython 引入了循环垃圾收集器(GC)。

在默认构建中，支持GC的对象在内存布局上增加了两个额外字段：

[PyGC_Head]
  *_gc_next
  *_gc_prev
[PyObject_HEAD]
  ob_refcnt
  *ob_type
  ...

这些字段用于维护GC跟踪的双向链表。通过类型转换((PyGC_Head *)(the_object)-1)可以访问这些字段。

自由线程构建使用不同的内存布局：

[PyObject_HEAD]
  ob_tid
  pad | ob_mutex | ob_gc_bits | ob_ref_local
  ob_ref_shared
  *ob_type
  ...

其中ob_gc_bits是一个1字节字段，用于跟踪GC状态。在垃圾收集期间，还会临时重用ob_tid和ob_ref_local字段。

GC算法通过以下步骤识别不可达对象：

GC算法示意图

为了减少单次GC造成的停顿时间，CPython采用了分代收集策略：

这种策略基于"弱代假说"——大多数对象生命周期很短。

为了节省内存，GC在不同场景下会重用_gc_next和_gc_prev字段：

从Python 3.13开始，CPython提供了两种GC实现：

两者使用相同的基本算法，但在数据结构和线程安全机制上有所不同。

循环引用在Python中比想象中更常见：

理解GC机制有助于编写更高效的Python代码，特别是在处理大型数据结构或长期运行的应用时。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考