1.Python
注:以下内容摘自参考文献[1].
- 导入相关库
import random
from PIL import Image
import numpy as np
import h5py
- 文件配置
IMAGE_DIR = ['image_train', 'image_test']
HDF5_FILE = ['hdf5_train.h5', 'hdf5_test.h5']
LIST_FILE = ['list_train.txt', 'list_test.txt']
- label配置
LABELS = dict(
# (kind_1, kind_2)
A_0 = (0, 0),
B_0 = (1, 0),
A_1 = (0, 1),
B_1 = (1, 1),
A_2 = (0, 2),
B_2 = (1, 2),
)
- 生成hdf5文件
print '\nplease wait...'
for kk, image_dir in enumerate(IMAGE_DIR):
# 读取文件列表于file_list
file_list = ...
# 文件列表乱序
random.shuffle(file_list)
# 标签类别
kind_index = ...
# 图片大小为96*32,单通道
datas = np.zeros((len(file_list), 1, 32, 96))
# label大小为1*2
labels = np.zeros((len(file_list), 2))
for ii, _file in enumerate(file_list):
# hdf5文件要求数据是float或者double格式
# 同时caffe中Hdf5DataLayer不允许使用transform_param,
# 所以要手动除以256
datas[ii, :, :, :] = \
np.array(Image.open(_file)).astype(np.float32) / 256
labels[ii, :] = np.array(LABELS[kind_index ]).astype(np.int)
# 写入hdf5文件
with h5py.File(HDF5_FILE[kk], 'w') as f:
f['data'] = datas
f['labels'] = labels
f.close()
# 写入列表文件,可以有多个hdf5文件
with open(LIST_FILE[kk], 'w') as f:
f.write(os.path.abspath(HDF5_FILE[kk]) + '\n')
f.close()
print '\ndone...'
注意
1.caffe中要求1个hdf5文件大小不超过2GB,所以如果数据量太大,建议生成 多个hdf5文件
2.我用的5万张图片,大小一共30几兆,生成的hdf5文件是1.8GB
2.Matlab
注:以下内容摘自参考文献[2].
有些时候,我们的输入不是标准的图像,而是其它一些格式,比如:频谱图、特征向量等等,这种情况下LMDB、Leveldb以及ImageData layer等就不好使了,这时候我们就需要一个新的输入接口——HDF5Data[2].
(1) 在Matlab中生成HDF5文件
这里直接以例子的形式说明如何生成:
问题:输入data是512*1的矢量,共1000个样本,label是标量。
代码如下:
% 创建HDF5文件,包含data和label两个变量,数据类型是caffe支持的float型数据
h5create('train.h5','/data',[1 1 512 1000],'Datatype','single');
h5create('train.h5','/label',[1 1 1 1000],'Datatype','single');
%reshape: width x height x channels x num,注意MATLAB读数据是列优先,是和C++里面相反的。所以写数据的时候也要倒着写。
train_data = reshape(train_data,[1 1 512 1000]);
train_label = reshape(train_label,[1 1 1 1000]);
h5write('train.h5' ,'/data' , single(train_data));
h5write('train.h5' ,'/label', single(train_label));
(2) caffe中HDF5层的用法
注意:由于单个HDF5文件大小有限制,MATLAB下好像最大只能生成5G大小的文件,因此当我们的训练数据较多的时候,往往需要将数据分别写入多个H5文件中。
下面直接给出caffe中HDF5Data-layer的使用示例:
layer {
name: "data"
type: "HDF5Data"
top: "data"
top: "label"
include {
phase: TRAIN
}
hdf5_data_param {
source: "train.txt"
batch_size: 128
shuffle: true
}
}
由于可能存在多个H5文件,所以HDF5Data的输入是从一个TXT文件读取的列表,train.txt内容示例如下:
train1.h5
train2.h5
...
(3) 实例
参考文献:
1.http://blog.youkuaiyun.com/u011762313/article/details/48830561 [ 生成hdf5文件用于多标签训练]
2.http://blog.youkuaiyun.com/shuzfan/article/details/52503683 [ caffe HDF5Data 层使用及数据生成]