字典与集合

本文介绍了如何使用字典推导和collections模块中的defaultdict、Counter来简化数据处理。涵盖了键默认值设置、散列表原理及应用,以及集合的去重和操作。适合理解Python中高效数据结构的开发者。

字典推导

DIAL_CODES = [(86, 'China'),(91, 'India'),(1, 'United States')]
country_code = {country: code for code, country in DIAL_CODES}

用setdefault处理找不到的键

# 如果key不存在,把key和一个空列表放进映射,然后返回这个空列表
my_dict.setdefault(key, []).append(new_value)

defaultdict:处理找不到的键的一个选择

  • collections.defaultdict创建找不到时的默认值
# 如果index没有key的记录,default_factory会被调用,为查询不到的键创建一个值。
index = collections.defaultdict(list)

字典的变种

  • collections.Counter:会给键准备一个整数计数器。每次更新一个键的时候都会增加这个计数器。
# 每个字母出现的次数
ct = collections.Counter('asdfasdfasdf')
ct.update('aaaafffgggzzz')
# 出现最多的前2个
ct.most_common(2)

不可变映射类型

  • types.MappingProxyType:给这个类一个映射,返回只读的映射视图,且是动态的。
from types import MappingProxyType
d = {1: 'A'}
d_proxy = MappingProxyType(d)
# d_proxy[2] = 'x' 会抛出TypeError
d[2] = 'B'
# d_proxy会跟d动态改变
d_proxy[2]

集合

  • 可以用于去重
  • needles的元素在haystack里出现的次数,要求都是set类型。
found = len(needles & haystack)
# 任何可迭代对象
found = len(set(needles) & (set(haystack))
  • 空集合表示:set()
  • 反汇编函数dis.dis查看字节码
from dis import dis
dis('{1}')
# 用列表构建较慢,需要新建一个列表,再把这个列表传入到构造方法。
dis('[1]')
  • 集合推导
{i for i in range(5)}

字典中的散列表

  • 散列表是一个稀疏数组。
  • dict的实现及其导致的结果
    • 键必须是可散列的
    • 字典在内存上的开销巨大,可以用元组或具名元组构成的列表替代,避免了散列表所耗费的空间和无需把记录中的字段的名字在每个元素里都存一遍。
    • 键查询很快,空间换时间
    • 键的次序取决于添加顺序,但是当添加新建又发生散列冲突的时候,新键可能会被按排存放到另一个位置。
    • 往字典里添加新键可能会改变已有键的顺序,所以,不要对字典同时进行迭代和修改。
  • set的实现以及导致的结果
    • 集合里的元素必须是可散列的
    • 集合很消耗内存
    • 可以很高效的判断元素是否存在于某个集合
    • 元素的次序取决于被添加到集合里的次序
    • 往集合里添加元素,可能会改变集合里已有元素的次序

流畅的python2015

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值