本文将原始的numpy array数据在pytorch下封装为Dataset类的数据集,为后续深度网络训练提供数据。
加载并保存图像信息
首先导入需要的库,定义各种路径。
import os
import matplotlib
from keras.datasets import mnist
import numpy as np
from torch.utils.data.dataset import Dataset
from PIL import Image
import scipy.misc
root_path = 'E:/coding_ex/pytorch/Alexnet/data/'
base_path = 'baseset/'
training_path = 'trainingset/'
test_path = 'testset/'
这里将数据集分为三类,baseset为所有数据(trainingset+testset),trainingset是训练集,testset是测试集。
直接通过keras.dataset加载mnist数据集,不能自动下载的话可以手动下载.npz并保存至相应目录下。
def LoadData(root_path, base_path, training_path, test_path):
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_baseset = np.concatenate((x_train, x_test))
y_baseset = np.concatenate((y_train, y_test))
train_num = len(x_train)
test_num = len(x_test)
#baseset
file_img = open((os.path.join(root_path, base_path)+'baseset_img.txt'),'w')
file_label = open((os.path.join(root_path, base_path)+'baseset_label.txt'),'w')
for i in range(train_num + test_num):
file_img.write(root_path + base_path + 'img/' +