Pytorch数据读取：Dataset和DataLoader

群星闪耀

于 2021-05-19 20:30:13 发布

阅读量1.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python pytorch 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_40244676/article/details/117043973

本文介绍了PyTorch中用于数据读取的Dataset和DataLoader。Dataset是一个抽象基类，用于定义数据加载的方式，包括数据集大小的获取和数据项的获取。DataLoader则是构建可迭代的数据装载器，它接受Dataset对象，批大小，是否多进程读取等参数。在处理GPU数据时，需注意代码执行顺序，避免多进程与GPU数据转移的冲突。博客提到了两种处理方式，并建议在处理复杂数据集时结合pandas和CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

确保安装

scikit-image
numpy

Dataset和DataLoader都是Pytorch里面读取数据的工具。现在对这两种工具做一个概括和总结。

1.Dataset

一个例子：

# 导入需要的包
import torch
import torch.utils.data.dataset as Dataset
import numpy as np

# 编造数据
Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])
Label = np.asarray([[0], [1], [0], [2]])
# 数据[1,2]，对应的标签是[0]，数据[3,4],对应的标签是[1]


#创建子类
class subDataset(Dataset.Dataset):
    #初始化，定义数据内容和标签
    def __init__(self, Data, Label):
        self.Data = Data
        self.Label = Label
    #返回数据集大小
    def __len__(self):
        return len(self.Data)
    #得到数据内容和标签
    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        return data, label

# 主函数
if __name__ == '__main__':
    dataset = subDataset(Data, Label)
    print(dataset)
    print('dataset大小为：&

最低0.47元/天解锁文章