pandas数据读写与操作全解析
1. HDF5格式数据处理
在数据分析涉及大量数据时,使用二进制格式更为合适,HDF5库在处理二进制数据方面表现出色。HDF是分层数据格式的缩写,该库用于读写包含节点结构和存储多个数据集的HDF5文件。它用C语言开发,同时提供了与Python、Matlab和Java等语言的接口,使用广泛且效率高,能实时压缩数据。
在Python中处理HDF5有两种选择:PyTables和h5py。h5py提供与HDF5高级API的直接接口,而PyTables则抽象了HDF5的许多细节,提供更灵活的数据容器、索引表、查询功能等。
pandas有一个类似字典的类HDFStore,使用PyTables来存储pandas对象。使用前需导入该类:
from pandas.io.pytables import HDFStore
下面是存储DataFrame数据到HDF5文件的示例:
import pandas as pd
import numpy as np
frame = pd.DataFrame(np.arange(16).reshape(4,4),
index=['white','black','red','blue'],
columns=['up','down','right','left'])
store = HDFStore('mydata.h5')
store['obj1']
超级会员免费看
订阅专栏 解锁全文
1165

被折叠的 条评论
为什么被折叠?



