Python hdf5 优化神经网络读取文件

本文介绍Python下HDF5文件操作,需依赖h5py工具包。涵盖创建文件和数据集,可设置维度扩展与压缩;写数据集可像操作numpy数组,用resize扩展维度;读数据集可从硬盘或内存读取,还提及pytorch中读取hdf5代码待分享。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python下的HDF5文件需要依赖h5py工具包,首先我们需要安装这个包
创建文件和数据集
使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集:

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩,以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储,每一分块的大小

最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip’以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集’train’,也就是变量X以后,可以下面的方法来读写:

data = np.zeros((100,args.patch_s
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值