Python - 序列化模块 - pickle、json、shelve、xml

最新推荐文章于 2021-07-20 15:51:11 发布

原创最新推荐文章于 2021-07-20 15:51:11 发布 · 415 阅读

3 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

58 篇文章

订阅专栏

本文介绍了Python中的序列化技术，包括pickle、json、shelve和xml等模块的使用方法及特点。详细阐述了各模块的基本操作，如序列化、反序列化及数据更新等，并对比了json与xml在数据交换上的优缺点。

一、序列化基础知识

二、pickle 模块：处理 python 所有数据，只能用于 python

2-1 pickle序列化

2-2 pickle反序列化

三、json 模块：处理 JSON 字符串

3-3 pprint 模块格式输出 json 数据

四、shelve 模块：python自带的序列化工具

4-1 shelve 序列化

4-2 shelve 反序列化

4-3 shelve 更新文件数据

五、xml 模块：实现不同语言或程序数据交换协议的模块

5-1 xml 基本操作

5-2 创建xml文件 - 方式一

5-3 创建xml文件 - 方式二

一、序列化基础知识

序列化 ：把对象(变量)从内存中变成可存储或传输的中间格式的过程称之为序列化
即：python中数据写入文件保存就是一种序列化过程

在 Python 中叫 pickling，在其他语言中也被称之为 serialization，marshalling，flattening 等等

！！注意：把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling

序列化优点

持久保存状态
跨平台数据交互

实现序列化方式及其优缺点

json
优点：兼容所有语言，可以跨平台交互数据
缺点：并不支持所有python类型，只支持常用类型
pickle：
优点：可以支持所有python数据类型
缺点：不能跨平台

二、pickle 模块：处理 python 所有数据，只能用于 python

Pickle能将python中所有的数据序列化，但它只能用于Python，并且可能不同版本的Python彼此都不兼容

因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

2-1 pickle序列化
# 序列化
import pickle

dic = {'name': 'alvin', 'age': 23, 'sex': 'male'}
print(type(dic))  # <class 'dict'>
j = pickle.dumps(dic)
print(type(j))  # <class 'bytes'>
f = open('序列化对象_pickle', 'wb')  # 注意是w是写入str,wb是写入bytes,j是'bytes'
f.write(j)  # 等价于pickle.dump(dic,f)
f.close()
2-2 pickle反序列化
# 反序列化
import pickle

f = open('序列化对象_pickle', 'rb')
data = pickle.loads(f.read())  # 等价于data=pickle.load(f)
print(data['age'])

三、json 模块：处理 JSON 字符串

json 模块 ：用于处理 json 字符串的模块

json：一种通用的轻量级数据交换格式，本质是字符串

如果要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML（数据大）
但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取
也可以方便地存储到磁盘或者通过网络传输。
且json能支持的数据结构，也就是js支持的数据结构
JSON不仅是通用的数据交换格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

python 和 json 数据类型的对应关系

python - json
dict - object（对象 {} ）
list,tuple - array （数组 []）
str - string("" 注：只能双引号)
int、float - 123.4(number 数字类型)
Turt、False - true、false
None - null
！！注：json格式，数据类型严格，不支持python的元组，'',''' '''

json模块常用方法

序列化
- dump：处理文件 dump（数据类型）
- dumps：处理字符串 dumps（数据类型，文件对象）
反序列化
- load：处理文件 load（数据类型）
- loads：处理字符串 loads（数据类型，文件对象）