Python 创建LMDB/HDF5格式数据
LMDB格式的优点:
- 基于文件映射IO(memory-mapped),数据速率更好
- 对大规模数据集更有效.
HDF5的特点:
- 易于读取
- 类似于mat数据,但数据压缩性能更强
- 需要全部读进内存里,故HDF5文件大小不能超过内存,可以分成多个HDF5文件,将HDF5子文件路径写入txt中.
- I/O速率不如LMDB.
LMDB创建
import numpy as np
import lmdb
import caffe
lmdb_file = '/path/to/data_lmdb'
N = 1000
# 准备 data 和 labels
X = np.zeros((N, 3, 224, 224), dtype=np.uint8) # data