pytorch 的数据加载到模型的操作顺序

最新推荐文章于 2025-01-12 23:59:11 发布

H_Shelly

最新推荐文章于 2025-01-12 23:59:11 发布

阅读量681

点赞数

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/ranjiewen/p/10128046.html

本文详细介绍了PyTorch中DataLoader的重要作用及其实现原理，DataLoader是连接自定义Dataset与模型训练的关键桥梁，它能够根据设定的批量大小、是否打乱等参数，将数据封装成适合模型训练的Tensor形式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://www.cnblogs.com/ranjiewen/p/10128046.html

输入数据PipeLine
pytorch 的数据加载到模型的操作顺序是这样的：

① 创建一个 Dataset 对象
② 创建一个 DataLoader 对象
③ 循环这个 DataLoader 对象，将img, label加载到模型中进行训练

dataset = MyDataset()
dataloader = DataLoader(dataset)
num_epoches = 100
for epoch in range(num_epoches):
for img, label in dataloader:
....
所以，作为直接对数据进入模型中的关键一步， DataLoader非常重要。

首先简单介绍一下DataLoader，它是PyTorch中数据读取的一个重要接口，该接口定义在dataloader.py中，只要是用PyTorch来训练模型基本都会用到该接口（除非用户重写…），该接口的目的：将自定义的Dataset根据batch size大小、是否shuffle等封装成一个Batch Size大小的Tensor，用于后面的训练。

官方对DataLoader的说明是：“数据加载由数据集和采样器组成，基于python的单、多进程的iterators来处理数据。”关于iterator和iterable的区别和概念请自行查阅，在实现中的差别就是iterators有__iter__和__next__方法，而iterable只有__iter__方法。