在 Python 编程中,数据的存储和传输是常见的操作需求。有时,我们需要将复杂的数据对象保存到文件中以便后续使用,或者在不同的程序之间传递对象。Python 的 pickle 模块提供了一种方便的解决方案,它能够实现对象的序列化和反序列化,使得数据的持久化和共享变得更加容易。
1、序列化、反序列化介绍
序列化:把对象转换为字节序列的过程称为对象的序列化。
反序列化:把字节序列恢复为对象的过程称为对象的反序列化。
2、pickle模块说明
python中的pickle模块实现了基本的数据序列化和反序列化。
通过pickle模块的序列化操作能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,能够从文件中创建上一次程序保存的对象。
pickle模块使用的数据格式是python专用的,能够把python对象直接保存到文件,而不需要转化为字符串,也不用底层的文件访问操作把它们写入到一个二进制文件中。
3、pickle模块常用函数
(1)pickle.dump(obj, file, [,protocol])
函数的功能:将obj对象序列化存入已经打开的file中。
参数:
obj:想要序列化的obj对象。
file:文件名称。
protocol:序列化使用的协议。如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pickle
# 将test对象序列化到文件中
def dump_test_data():
test = [1, 2, 3]
with open("test.pickle", "wb") as file:
pickle.dump(test, file)
(2)pickle.load(file)
函数的功能:将file中的对象序列化读出。
参数:
file:文件名称。
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pickle
# 将文件中test对象序列化读出
def load_test_data():
with open("test.pickle", "rb") as file:
test = pickle.load(file)
return test
(3)pickle.dumps(obj[, protocol])
函数的功能:将obj对象序列化为string形式,而不是存入文件中。
参数:
obj:想要序列化的obj对象。
protocal:如果该项省略,则默认为0。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pickle
# 将test对象序列化为字符串形式
def dumps_test_data():
test = [1, 2, 3]
# dumps 将数据通过特殊的形式转换为仅python语言识别的字符串
str_test = pickle.dumps(test)
print(str_test)
(4)pickle.loads(string)
函数的功能:从string中读出序列化前的obj对象。
参数:
string:文件名称。
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pickle
# 从string中读出序列化前的对象
def loads_test_data():
test = [1, 2, 3]
str_test = pickle.dumps(test)
# loads 将pickle数据转化为python的数据结构
loads_test = pickle.loads(str_test)
print(loads_test)
pickle 的应用场景
(一)数据持久化
在数据处理和分析应用中,经常需要将中间结果或最终结果保存到磁盘上以便后续使用。pickle 可以方便地将复杂的数据结构(如大型数据集、机器学习模型等)保存为文件,避免了每次重新计算或重新加载数据的麻烦。例如,在训练一个机器学习模型后,可以使用 pickle 将训练好的模型对象保存起来,下次使用时直接从文件中加载模型即可进行预测,大大提高了效率。
(二)数据传输
在分布式系统或网络编程中,需要在不同的进程或机器之间传输数据。pickle 可以将数据对象序列化为字节流,然后通过网络套接字等方式进行传输,接收方再进行反序列化得到原始对象。虽然在网络传输中可能会考虑使用更轻量级和跨语言的序列化格式(如 json),但对于只在 Python 环境内部进行的传输,pickle 因其对各种 Python 对象的良好支持而具有一定的优势。
(三)缓存机制
在一些需要频繁计算但结果相对稳定的场景中,可以使用 pickle 实现缓存机制。例如,一个函数的计算结果可能需要花费较长时间,但在一段时间内不会发生变化。可以将第一次计算的结果使用 pickle 保存到文件中,下次调用函数时先检查缓存文件是否存在,如果存在则直接从文件中反序列化结果,避免重复计算,提高程序的运行速度。
综上所述,Python 的 pickle 模块是一个功能强大且实用的工具,它在对象序列化和反序列化方面提供了便捷的解决方案,广泛应用于数据持久化、传输和缓存等多个领域。