Pytorch自定义数据集 ImageNet

最新推荐文章于 2025-09-26 02:59:41 发布

原创

最新推荐文章于 2025-09-26 02:59:41 发布 · 2.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #机器学习

本文介绍了如何在PyTorch中使用ImageFolder和自定义Dataset来处理ImageNet数据集，包括数据集结构的要求，以及如何解决数据类型不匹配的问题。重点讲解了使用ImageNet100子集的代码示例和遇到的常见问题解决方法。

由于Pytorch不支持内置的ImageNet数据集，因此我们需要自定义数据集。有两种方式

1、使用ImageFolder

ImageFolder需要数据集有良好的结构，train和test下分别包含相同类别的文件夹，每个文件夹存放一类图像，也就是这样

——ImageNet
  ——train
  	——cls1
  		——cls1_00.jpg
  		——cls1_01.jpg
  		...
  		——cls1_59.jpg
  	——cls2
  	——clsn
  ——test
  	——cls1
  		——cls1_60.jpg
  		——cls1_61.jpg
  		...
  		——cls1_100.jpg
  	——cls2
  	——clsn

此时把.../ImageNet/train 或者 .../ImageNet/test/ 当作imagenet_root传入ImageFolder即可

from torchvision.datasets import ImageFolder
imagenet_train = ImageFolder(imagenet_root, transform=transform_imagenet_train)
train_iter= DataLoader(imagenet_train, batch_size=batch_size, shuffle=True, num_workers=num_workers,
                               pin_memory=True)