三、如何搞自定义数据集?


前言

MNIST数据这个最最基础的数据集已经被走在程序猿道路上的同学们玩坏了,所以今天教大家如何搞一个自定义数据集。


一、定义的数据集,未做预处理。

下面展示一些 内联代码片

import  os
from  torch.utils.data import  Dataset ,DataLoader
from PIL import Image

#1.创建数据集类,使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):

    #2.循环找到文件路径,并添加标签
    def __init__(self,main_dir,data_type,transforms):
        self.dataset=[]#空列表为装新增一个标签的数据库
        self.transforms=transforms
        if data_type==0:
            data_filename='train'
        elif data_type is 1:
            data_filename='val'
        else:
            data_filename='test'
        for i , cls_filename in enumerate(
        os.listdir(os.path.join(main_dir,data_filename))):
            for i ,img_data in enumerate(os.listdir(
            os.path.join(main_dir,data_filename,cls_filename))):
                self.dataset.append([os.path.join(main_dir,
                data_filename,cls_filename,img_data),int(img_data[0]) ])

    #3.计算图片长度,方便后面迭代
    def __len__(self):
        return len(self.dataset)#为了获取图片长度,方便迭代

    #4、取出图片路径,并打开,便于做数据预处理
    def __getitem__(self, index):
        img,label=self.dataset[index]
        img_data=Image.open(img)
        img_data=self.transforms(img_data)
        return img_data,label

示例:@TOC

二、定义数据集,并做数据预处理。

包括旋转、裁剪、转为张量、扩大、正则化等等。

1.预处理部分

#4、取出图片路径,并打开,便于做数据预处理
def __getitem__(self, index):
    img,label=self.dataset[index]
    img_data=self.data_process(Image.open(img))
    return img_data,label

#5.数据处理,数据增强、加噪声等等
def data_process(self,x):
    return transforms.Compose([transforms.ToTensor(),
    transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)

2.定义数据过程

代码如下(示例):

import  os
from  torchvision import transforms
from  torch.utils.data import  Dataset ,DataLoader
from PIL import Image

#1.创建数据集类,使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):

    #2.循环找到文件路径,并添加标签
    def __init__(self,main_dir,data_type):
        self.dataset=[]#空列表为装新增一个标签的数据库
        if data_type==0:
            data_filename='train'
        elif data_type is 1:
            data_filename='val'
        else:
            data_filename='test'
        for i , cls_filename in enumerate(
        os.listdir(os.path.join(main_dir,data_filename))):
            for i ,img_data in enumerate(os.listdir(
            os.path.join(main_dir,data_filename,cls_filename))):
                self.dataset.append([os.path.join(main_dir,
                data_filename,cls_filename,img_data),i ])

    #3.计算图片长度,方便后面迭代
    def __len__(self):
        return len(self.dataset)#为了获取图片长度,方便迭代

    #4、取出图片路径,并打开,便于做数据预处理
    def __getitem__(self, index):
        img,label=self.dataset[index]
        img_data=self.data_process(Image.open(img))
        return img_data,label

    #5.数据处理,数据增强、加噪声等等
    def data_process(self,x):
        return transforms.Compose([transforms.ToTensor(),
        transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)
``
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值