Python hdf5 优化神经网络读取文件

最新推荐文章于 2023-12-16 14:12:34 发布

ANONYMOUSLYCN

最新推荐文章于 2023-12-16 14:12:34 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/geng333abc/article/details/92800629

本文介绍Python下HDF5文件操作，需依赖h5py工具包。涵盖创建文件和数据集，可设置维度扩展与压缩；写数据集可像操作numpy数组，用resize扩展维度；读数据集可从硬盘或内存读取，还提及pytorch中读取hdf5代码待分享。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python下的HDF5文件需要依赖h5py工具包，首先我们需要安装这个包
创建文件和数据集
使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集：

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),　            #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度　
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩，以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储，每一分块的大小

最为关系的两个参数为shape和maxshape，很显然我们希望数据集的某一个维度是可以扩展的，所以在maxshape中，将希望扩展的维度标记为None，其他维度和shape参数里面的一样。还有一点值得注意的是，使用compression='gzip’以后，整个数据集能够被极大的压缩，对比较大的数据集非常又用，并且在数据读写的时候，不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后，读写数据集就如同读写numpy数组一样方便，比如上面的函数定义了数据集’train’，也就是变量X以后，可以下面的方法来读写：