Python collections模块深度解析 - 探索Python标准库中的高效数据结构-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00902/article/details/148783150

Python collections模块深度解析 - 探索Python标准库中的高效数据结构

explore-python :green_book: The Beauty of Python Programming. 项目地址: https://gitcode.com/gh_mirrors/ex/explore-python

前言

Python作为一门功能强大的编程语言，其标准库中提供了许多实用的模块。其中，collections模块是处理各种集合数据类型的利器。本文将深入解析collections模块中的5个重要数据结构，帮助你提升Python编程效率。

collections模块概述

Python内置了list、tuple、dict等基础数据类型，但在某些特定场景下，这些基础类型可能无法满足需求。collections模块提供了5个高性能的扩展数据类型：

Counter：计数器
OrderedDict：有序字典
defaultdict：带默认值的字典
namedtuple：具名元组
deque：双端队列

这些数据结构不仅功能强大，而且在性能上也有优化，是Python开发者工具箱中不可或缺的部分。

Counter计数器

Counter是一个专门用于计数的字典子类，它简化了元素统计的过程。

基本用法

from collections import Counter

# 统计字符串中字符出现次数
char_count = Counter('programming')
print(char_count)
# 输出: Counter({'r': 2, 'g': 2, 'm': 2, 'p': 1, 'o': 1, 'a': 1, 'i': 1, 'n': 1})

# 统计列表中元素出现次数
word_list = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
word_count = Counter(word_list)
print(word_count)
# 输出: Counter({'apple': 3, 'banana': 2, 'orange': 1})

高级功能

Counter提供了多种实用的统计方法：

# 获取最常见的3个元素
print(word_count.most_common(3))
# 输出: [('apple', 3), ('banana', 2), ('orange', 1)]

# 计数器运算
c1 = Counter(a=3, b=1)
c2 = Counter(a=1, b=2)
print(c1 + c2)  # 相加
print(c1 - c2)  # 相减
print(c1 & c2)  # 交集
print(c1 | c2)  # 并集

OrderedDict有序字典

在Python 3.7之前，普通字典不保证元素的插入顺序。OrderedDict则始终记住元素被添加的顺序。

使用场景

from collections import OrderedDict

# 创建有序字典
od = OrderedDict()
od['z'] = 1
od['y'] = 2
od['x'] = 3
print(list(od.keys()))  # 保持插入顺序
# 输出: ['z', 'y', 'x']

# 移动元素到末尾
od.move_to_end('z')
print(list(od.keys()))
# 输出: ['y', 'x', 'z']

实际应用

OrderedDict特别适合需要保持元素顺序的场景，如：

实现LRU缓存
处理需要顺序保证的配置文件
构建有序的JSON数据

defaultdict默认字典

defaultdict解决了访问不存在的键时需要手动处理默认值的问题。

基本用法

from collections import defaultdict

# 默认值为0的字典
dd = defaultdict(int)
print(dd['nonexistent'])  # 输出0而不是报错

# 默认值为列表的字典
list_dict = defaultdict(list)
list_dict['colors'].append('red')
print(list_dict)
# 输出: defaultdict(<class 'list'>, {'colors': ['red']})

自定义默认值

# 使用lambda自定义默认值
price_dict = defaultdict(lambda: 'Price not set')
print(price_dict['apple'])  # 输出: 'Price not set'

namedtuple具名元组

namedtuple创建了带有字段名的元组子类，既保持了元组的不可变性，又提高了代码可读性。

创建和使用

from collections import namedtuple

# 定义Point类型
Point = namedtuple('Point', ['x', 'y'])

# 创建实例
p = Point(11, y=22)
print(p.x, p.y)  # 通过属性访问
# 输出: 11 22

# 仍然支持索引访问
print(p[0], p[1])
# 输出: 11 22

优势分析

namedtuple相比普通元组的优势：

代码可读性更强
既支持属性访问也支持索引访问
内存效率与普通元组相同
可以作为字典的轻量级替代

deque双端队列

deque是线程安全的双向队列，适合在两端快速添加或删除元素。

基本操作

from collections import deque

d = deque('ghi')  # 创建双端队列
d.append('j')     # 右侧添加
d.appendleft('f') # 左侧添加
print(d)          # 输出: deque(['f', 'g', 'h', 'i', 'j'])

d.pop()           # 右侧弹出
d.popleft()       # 左侧弹出
print(d)          # 输出: deque(['g', 'h', 'i'])

高级特性

# 旋转操作
d = deque(range(10))
d.rotate(3)   # 右旋3个元素
print(d)      # 输出: deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

d.rotate(-4)  # 左旋4个元素
print(d)      # 输出: deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

# 最大长度限制
limited_deque = deque(maxlen=3)
limited_deque.extend([1, 2, 3])
limited_deque.append(4)  # 自动移除最左边的1
print(limited_deque)     # 输出: deque([2, 3, 4], maxlen=3)