三、如何搞自定义数据集？

最新推荐文章于 2025-09-04 22:39:23 发布

原创最新推荐文章于 2025-09-04 22:39:23 发布 · 1.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络

深度学习专栏收录该内容

14 篇文章

订阅专栏

文章目录

前言
一、定义的数据集，未做预处理。
二、定义数据集，并做数据预处理。
- 1.预处理部分
- 2.定义数据过程

前言

MNIST数据这个最最基础的数据集已经被走在程序猿道路上的同学们玩坏了，所以今天教大家如何搞一个自定义数据集。

一、定义的数据集，未做预处理。

下面展示一些 内联代码片。

import  os
from  torch.utils.data import  Dataset ,DataLoader
from PIL import Image

#1.创建数据集类，使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):

    #2.循环找到文件路径，并添加标签
    def __init__(self,main_dir,data_type,transforms):
        self.dataset=[]#空列表为装新增一个标签的数据库
        self.transforms=transforms
        if data_type==0:
            data_filename='train'
        elif data_type is 1:
            data_filename='val'
        else:
            data_filename='test'
        for i , cls_filename in enumerate(
        os.listdir(os.path.join(main_dir,data_filename))):
            for i ,img_data in enumerate(os.listdir(
            os.path.join(main_dir,data_filename,cls_filename))):
                self.dataset.append([os.path.join(main_dir,
                data_filename,cls_filename,img_data),int(img_data[0]) ])

    #3.计算图片长度，方便后面迭代
    def __len__(self):
        return len(self.dataset)#为了获取图片长度，方便迭代

    #4、取出图片路径，并打开，便于做数据预处理
    def __getitem__(self, index):
        img,label=self.dataset[index]
        img_data=Image.open(img)
        img_data=self.transforms(img_data)
        return img_data,label

示例：@TOC

二、定义数据集，并做数据预处理。

包括旋转、裁剪、转为张量、扩大、正则化等等。

1.预处理部分

#4、取出图片路径，并打开，便于做数据预处理
def __getitem__(self, index):
    img,label=self.dataset[index]
    img_data=self.data_process(Image.open(img))
    return img_data,label

#5.数据处理，数据增强、加噪声等等
def data_process(self,x):
    return transforms.Compose([transforms.ToTensor(),
    transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)

2.定义数据过程

代码如下（示例）：

import  os
from  torchvision import transforms
from  torch.utils.data import  Dataset ,DataLoader
from PIL import Image

#1.创建数据集类，使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):

    #2.循环找到文件路径，并添加标签
    def __init__(self,main_dir,data_type):
        self.dataset=[]#空列表为装新增一个标签的数据库
        if data_type==0:
            data_filename='train'
        elif data_type is 1:
            data_filename='val'
        else:
            data_filename='test'
        for i , cls_filename in enumerate(
        os.listdir(os.path.join(main_dir,data_filename))):
            for i ,img_data in enumerate(os.listdir(
            os.path.join(main_dir,data_filename,cls_filename))):
                self.dataset.append([os.path.join(main_dir,
                data_filename,cls_filename,img_data),i ])

    #3.计算图片长度，方便后面迭代
    def __len__(self):
        return len(self.dataset)#为了获取图片长度，方便迭代

    #4、取出图片路径，并打开，便于做数据预处理
    def __getitem__(self, index):
        img,label=self.dataset[index]
        img_data=self.data_process(Image.open(img))
        return img_data,label

    #5.数据处理，数据增强、加噪声等等
    def data_process(self,x):
        return transforms.Compose([transforms.ToTensor(),
        transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)
``