Python下的HDF5文件需要依赖h5py工具包,首先我们需要安装这个包
创建文件和数据集
使用`h5py.File()方法创建hdf5文件
h5file = h5py.File(filename,'w')
然后在此基础上创建数据集:
X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size), #数据集的维度
maxshape = (None,args.patch_size,args.patch_size), #数据集的允许最大维度
dtype=float,compression='gzip',name='train', #数据类型、是否压缩,以及数据集的名字
chunks=(args.chunk_size,args.patch_size,args.patch_size)) #分块存储,每一分块的大小
最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip’以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。
写数据集
在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集’train’,也就是变量X以后,可以下面的方法来读写:
data = np.zeros((100,args.patch_s