Python Mastery 项目：深入理解Python容器内存优化技巧

最新推荐文章于 2025-06-18 20:34:11 发布

经庄纲

最新推荐文章于 2025-06-18 20:34:11 发布

阅读量362

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01093/article/details/148394133

Python Mastery 项目：深入理解Python容器内存优化技巧

python-mastery Advanced Python Mastery (course by @dabeaz) 项目地址: https://gitcode.com/gh_mirrors/py/python-mastery

前言

在Python编程中，理解数据结构的内部工作机制对于编写高效程序至关重要。本文将基于Python Mastery项目中的练习内容，深入探讨Python列表和字典的内存分配行为，以及如何通过自定义容器来优化内存使用。

列表的内存增长机制

Python列表的append()操作经过高度优化，其内存分配策略值得深入研究：

import sys
items = []
print(sys.getsizeof(items))  # 初始大小：64字节
items.append(1)
print(sys.getsizeof(items))  # 增长到96字节
items.append(2)
print(sys.getsizeof(items))  # 大小不变：96字节

关键观察点：

列表不是每次添加元素都重新分配内存
Python会预先分配比当前需求更大的内存空间
当预留空间耗尽时，列表会进行较大幅度的扩容

技术细节：

在64位系统上，每个列表元素引用占用8字节
列表对象本身有固定大小的开销（存储长度、容量等信息）
扩容策略通常是按比例增长（如每次增加约12.5%）

字典的内存特性

字典（及类）的内存分配行为与列表有所不同：

row = {'route': '22', 'date': '01/01/2001'}
print(sys.getsizeof(row))  # 初始大小：240字节
row['a'] = 1
print(sys.getsizeof(row))  # 大小不变
row['b'] = 2
print(sys.getsizeof(row))  # 增长到368字节

重要发现：

字典允许存储5个键值对后才进行内存翻倍
删除元素不会自动缩小内存占用
对于大量小型记录，字典可能不是最有效的选择

替代方案建议：

使用元组或命名元组
定义使用__slots__的类
考虑使用数组或NumPy等专门数据结构

列式存储的内存优化

将行式数据转换为列式存储可以显著减少内存使用：

def read_rides_as_columns(filename):
    routes, dates, daytypes, numrides = [], [], [], []
    # 读取数据到四个独立的列表
    return {'routes': routes, 'dates': dates, 
            'daytypes': daytypes, 'numrides': numrides}

内存优势分析：

消除了每个记录单独字典的开销
仅需存储指向数据的指针（每个8字节）
对于577,563行数据，预计节省约120MB内存

自定义容器实现

为了保持原有接口同时获得内存优化，我们可以实现自定义容器：

from collections.abc import Sequence

class RideData(Sequence):
    def __init__(self):
        self.routes = []
        self.dates = []
        self.daytypes = []
        self.numrides = []
    
    def __len__(self):
        return len(self.routes)
    
    def __getitem__(self, index):
        return {
            'route': self.routes[index],
            'date': self.dates[index],
            'daytype': self.daytypes[index],
            'rides': self.numrides[index]
        }
    
    def append(self, d):
        self.routes.append(d['route'])
        self.dates.append(d['date'])
        self.daytypes.append(d['daytype'])
        self.numrides.append(d['rides'])

关键设计点：

继承collections.abc.Sequence确保序列行为
实现必需方法__len__和__getitem__
提供兼容的append方法
内部使用列式存储，外部表现为行式访问

切片功能增强

为了使自定义容器完全模拟列表行为，需要正确处理切片操作：

def __getitem__(self, index):
    if isinstance(index, slice):
        # 创建新的RideData实例来处理切片
        result = RideData()
        for i in range(*index.indices(len(self))):
            result.append(self[i])
        return result
    return { ... }  # 正常索引访问

切片实现要点：