dataset和dataload
链接1:https://pytorch.org/tutorials/beginner/basics/data_tutorial.html
处理数据样本的代码可能会变得杂乱无章且难以维护;理想情况下,我们希望数据集代码与模型训练代码分离,以获得更好的可读性和模块化。PyTorch 提供了两个数据原语: torch.utils.data.DataLoader
和 torch.utils.data.Dataset
允许您使用预加载的数据集和您自己的数据。 Dataset
存储样本及其相应的标签,而 DataLoader
则在 Dataset
周围封装了一个可迭代器,以方便访问样本。
为文件创建自定义数据集
自定义 Dataset 类必须实现三个函数:init、len 和 **getitem** 三个函数。
__init__
在实例化数据集对象时,会运行一次 init 函数。我们初始化包含图像的目录、注释文件和两个变换(下一节将详细介绍)。
__len__
len 函数返回数据集中的样本数。
__getitem__
__getitem__函数从数据集中加载并返回给定索引 idx
的样本。根据索引,