Python标准库之pickle

本文详细介绍了Python的pickle模块,用于对象的序列化和反序列化,包括pickle与cPickle的区别、数据持久化的概念、序列化与反序列化的区别。此外,还对比了pickle与json在序列化方式、可读性和跨平台性上的差异,并列举了pickle常用函数的使用示例,如pickle.dump、pickle.load、pickle.dumps和pickle.loads。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. pickle标准库简介

  • pickle,作为名词表示泡菜,作为动词表示用醋或盐水保存食物。由此不难联想到,用存储设备持久化保存数据。而pickle标准库恰是一个 Python 对象结构的二进制序列化和反序列化的核心库,专用于表示Python语言大量数据类型,是序列化 Python 对象时的首选。
  • pickle标准库是一个纯Python实现的标准版本,cPickle标准库(Python 3.x更名为_pickle)则是C语言实现的加速版本,读写效率较高。
  • 实际使用Python3.x过程中,我们直接导入标准版本即可,源代码最后部分会尝试导入加速版本对应函数,不必单独导入pickle模块,如下所示:
# Use the faster _pickle if possible
try:
    from _pickle import (
        PickleError,
        PicklingError,
        UnpicklingError,
        Pickler,
        Unpickler,
        dump,
        dumps,
        load,
        loads
    )
except ImportError:
    Pickler, Unpickler = _Pickler, _Unpickler
    dump, dumps, load, loads = _dump, _dumps, _load, _loads

1.1 预备知识

  • 数据持久化(Data Persistence):将内存中的数据模型转换为存储模型,以及将存储模型转换为内存中的数据模型的统称,一般是指把瞬时数据(如内存中的对象)转换为持久数据永久保存到存储设备中(如磁盘)。

  • 序列化\反序列化分类:二进制序列、文本序列

  • 序列化(Serialization):将对象的状态信息转换为可以存储或传输的形式的过程,目的是使内存中的状态信息持久化便于以后恢复、

    方便在网络传输以实现跨平台数据交互。

  • 反序列化(Deserialization):将序列重新恢复成对象的过程,是序列化的逆过程

1.2 pickle与json的对比

比较维度\标准库picklejson
序列化方式二进制序列文本序列
人类直观可读
跨平台、语言、协议否,Python专用
数据类型表示支持可表示大量Python数据类型只能表示Python内置类型子集,不能表示自定义的类

2. pickle常用函数

2.1 pickle.dump(obj, file, protocol=None, *, fix_imports=True)

将 Python 对象写入已打开的二进制文件

# define a dict object
obj={
    "name":"Bonnie",
    "isAGirl":True,
    "age":22,
    "hobbies":["guitar","singing","traveling"]
}
# 将obj写入已打开的二进制文件,序列化
with open("puppy_love.pkl","wb") as f:
    pickle.dump(obj,f,protocol=pickle.HIGHEST_PROTOCOL) # 设置为可用的最高协议

在这里插入图片描述

2.2 pickle.load(file, *, fix_imports=True, encoding='ASCII', errors='strict')

从已打开的二进制文件中读取打包后的对象,重建其中特定对象的层次结构并返回

# 从打开的二进制文件重建对象,反序列化
with open("puppy_love.pkl","rb") as f:
    obj_again=pickle.load(f)
print("反序列化后的对象为{}".format(obj_again))

在这里插入图片描述

2.3 pickle.dumps(obj, protocol=None, *, fix_imports=True)

将 obj 打包以后的对象作为bytes 类型直接返回,而不是将其写入到文件

# 将Python对象直接转为bytes类型,不写入文件
bytes_obj=pickle.dumps(obj,protocol=pickle.HIGHEST_PROTOCOL) # 设置为可用的最高协议
print("obj转换为bytes类型后为{}".format(bytes_obj))

在这里插入图片描述

2.4 pickle.loads(data, *, fix_imports=True, encoding='ASCII', errors='strict')

重建并返回一个对象的封存表示形式 data 的对象层级结构,bytes类型将反序列化为Python对象

# bytes类型将反序列化为Python对象
obj_origin=pickle.loads(bytes_obj)
print("bytes类型将反序列化为obj后{}".format(obj_origin))

在这里插入图片描述

3.参考文献

03-09
### Python `pickle` 模块使用指南 #### 序列化与反序列化的概念 序列化是指将程序中的对象转化为可存储或传输的形式,通常是字节流或者字符串形式。对于Python而言,`pickle`模块提供了这一功能,能处理几乎所有的内置类型以及用户自定义类型的对象。 #### 基本操作方法 - **序列化至字符串** 将任意支持的对象转成二进制格式的字符串表示,这可以通过调用`dumps()`实现[^1]: ```python import pickle original_data = {'name': 'Alice', 'age': 25} serialized_string = pickle.dumps(original_data) ``` - **从字符串反序列化** 反之,利用`loads()`可以从上述得到的二进制串重新构建原始对象结构: ```python deserialized_data = pickle.loads(serialized_string) ``` - **保存到文件** 当希望持久化这些数据时,可以选择先打开一个文件再执行相应的写入动作。注意这里应当采用二进制模式(`'wb'`)而非文本模式(`'w'`)[^2]: ```python with open('example.pkl', 'wb') as f: pickle.dump(deserialized_data, f) ``` - **从文件读取** 类似地,在恢复之前存档的数据前也需要确保按照正确的模式(即二进制读取 `'rb'`)去访问该文件: ```python with open('example.pkl', 'rb') as f: loaded_data = pickle.load(f) ``` #### 协议版本的选择 为了保证不同平台间的一致性和效率,`pickle`允许指定不同的协议版本号,默认情况下会自动选择最合适的那个——也就是当前最高的可用版本[HIGHEST_PROTOCOL][^1]。不过有时出于兼容性的考量可能需要固定某个特定的历史版本。 #### 安全警告 值得注意的是,由于`pickle`能够重建任何有效的Python表达式,因此加载来自不可信源的数据存在潜在的安全风险。官方文档建议仅限于信任环境下交换此类编码后的信息[^3]。 #### 性能对比与其他选项 尽管`pickle`非常适合用来做本地缓存或是跨进程通信的任务,但在涉及跨语言交互的情况下则不推荐使用它作为首选方案。此时像JSON这样的标准格式或许更加合适一些。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值