训练模型之最重要的——数据集格式加载 pytorch初学笔记(一):DataLoader的使用

本文介绍了DataLoader在深度学习中的作用,包括其作为数据集和采样器的组合,以及如何配置参数如batch_size、shuffle等。通过CIFAR10测试数据集的实例演示了如何创建和使用DataLoader,以及如何在tensorboard上可视化不同batch_size的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、介绍

        DataLoader是一个可迭代的数据装载器,组合了数据集和采样器,并在给定数据集上提供可迭代对象。可以完成对数据集中多个对象的集成。

       先导概念介绍:

        Epoch: 所有训练样本都已输入到模型中,称为一个epoch
        Iteration: 一批样本(batch_size)输入到模型中,称为一个Iteration,
        Batchsize: 一批样本的大小, 决定一个epoch有多少个Iteration

        人话就是:

  • 数据集(Dataset):  数据集就像是你冰箱里的食材

  • 数据加载器(DataLoader):根据需求从冰箱中拿出食材来准备晚餐的过程

  • 常用的主要有以下五个参数:

        dataset(数据集):需要提取数据的数据集,

        Dataset对象 batch_size(批大小):每一次装载样本的个数,int型

        shuffle(洗牌):进行新一轮epoch时是否要重新洗牌,Boolean型

        num_workers:是否多进程读取机制

        drop_last:当样本数不能被batchsize整除时, 是否舍弃最后一批数据 

二、DataLoader的使用

        我们使用CIFAR10的测试数据集来完成DataLoader的使用。

1. 导入并实例化DataLoader

         创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次。train=False表示现在是测试机, download=True(我在写下面代码前还没下载有数据,现在我要下载)

#导入数据集的包
import torchvision.datasets
#导入dataloader的包
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

#创建测试数据集
test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False, download=True, transform=torchvision.transforms.ToTensor())
#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次
test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)

2. 具体使用

2.1 数据集中数据的读取

        由于数据集中的数据已经被我们转换成了tensor型,我们用dataset[0]输出第一张图片,使用shape属性输出tensor类型的大小,target代表图片的标签。 

img,target = test_dataset[0]
print(img.shape,target)

        可以看到图片有RGB3个通道,大小为32*32,target(就是标签label)为3。

2.2 DataLoader中数据的读取

        在dataset中,每一个对象元组由一张图片对象img和一个标签target组成;

        而dataloader中会分别对一个批次中的图片和标签进行打包,因此dataloader中,每一个对象由元组由batchsize张图片对象imgs和batchsize个标签targets组成。

         我们需要通过for循环来取出loader中的对象,loader中的对象个数=数据集中对象个数/batch_size,故应为10000/4=2500个对象。(CIFAR10的测试数据集有10000个图片)

for data in test_dataloader:
    imgs,targets = data
    print(imgs.shape)
    print(targets) 
       结果如图:

     loader中的对象格式:

  • imgs的维度变成了4*3*32*32,即四张图片,每张图片3个通道,每张图片大小为32*32。
  • targets里有4个target,分别是四张图片的target。
  • 长度 = 2500个,数据集中图片个数为10000,10000/4=2500,验证正确。说明loader中数据按4个一组打包。

3. 使用tensorboard可视化效果

  3.1 改变batchsize 

         修改数据集的batchsize为64,writer中调用的方法为add_images(),因为需要读取的图片有多张。

        但是我们发现step156时只取了16张图片,是因为10000张图片每次取64张是不能整除的,因此最后剩下了16张,单独放在最后一个step中,对最后剩余数量的图片进行保留是因为我们设置的drop_last=False。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值