pytorch建立自己的数据集（以mnist为例）

最新推荐文章于 2025-06-13 21:14:36 发布

原创

最新推荐文章于 2025-06-13 21:14:36 发布 · 1.6w 阅读

56 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #python

本文介绍如何在PyTorch中构建一个自定义数据集，以MNIST为例，包括加载和保存图像信息，创建Dataset类，处理图像名称和标签，并展示获取特定图像的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文将原始的numpy array数据在pytorch下封装为Dataset类的数据集，为后续深度网络训练提供数据。

加载并保存图像信息

首先导入需要的库，定义各种路径。

import os
import matplotlib
from keras.datasets import mnist
import numpy as np
from torch.utils.data.dataset import Dataset
from PIL import Image
import scipy.misc

root_path = 'E:/coding_ex/pytorch/Alexnet/data/'
base_path = 'baseset/'
training_path = 'trainingset/'
test_path = 'testset/'

这里将数据集分为三类，baseset为所有数据（trainingset+testset），trainingset是训练集，testset是测试集。
直接通过keras.dataset加载mnist数据集，不能自动下载的话可以手动下载.npz并保存至相应目录下。

def LoadData(root_path, base_path, training_path, test_path):
    (x_train, y_train), (x_test, y_test) = mnist.load_data()
    x_baseset = np.concatenate((x_train, x_test))
    y_baseset = np.concatenate((y_train, y_test))
    train_num = len(x_train)
    test_num = len(x_test)
    
    #baseset
    file_img = open((os.path.join(root_path, base_path)+'baseset_img.txt'),'w')
    file_label = open((os.path.join(root_path, base_path)+'baseset_label.txt'),'w')
    for i in range(train_num + test_num):
        file_img.write(root_path + base_path