pytorch自定义数据读取

本文详细介绍如何在PyTorch中自定义Dataset类,并通过DataLoader进行高效数据加载。包括如何从文本文件读取图像路径及标签,以及如何将图像转换为张量格式。此外,还探讨了自定义数据集在DataLoader中的性能问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pytorch的数据读取主要跟三个类有关:
1. Dataset
2. DataLoader
3. DataLoaderIter

定义自己的Dataset类

定义自己的Dataset类(继承torch.utils.data.Dataset)并实现两个成员方法
1. __getitem__()
2. __len__()

class MyDataset(data.Dataset):
    # 读取存储image路径的txt文件
    def __init__(self, imagelistfile, labellistfile):
        with open(imagelistfile) as fb:
            self.imagelistpaths = fb.readlines()
        with open(labellistfile) as fb:
            self.labellistpaths = fb.readlines()

    # 读取存储image路径的txt文件
    def __getitem__(self, index):
        img_path = self.imagelistpaths[index]
        label = self.labellistpaths[index]
        img = Image.open(img_path.strip()) #使用PIL读取图片
        img = np.asarray(img,dtype=np.uint8) # Image.open读取后还不是array形式,所以要转换,不然下面转换会报错
        img = np.reshape(img,(1,28,28))
        # 这里需要将img重置为[channel,height,width],因为要对应神经网络的输入,原来的img是[height,width]
        img = torch.tensor(img)
        label = torch.tensor(int(label)) # 转为tensor类型
        return img, label #最后一定要return tensor类型不然会报错

    def __len__(self):
        return len(self.imagelistpaths)

DataLoader类

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)
  1. num_worker: 非常简单的多线程方法, 只要设置为>=1, 就可以多线程预读数据啦.

待解决问题

使用自己定义的Dataset类来读取自己制作的MNIST数据图片,速度明显比pytorch提供的MNIST类要慢很多,原因不明有待解决,有可能是自己的dataset类在DataLoader中迭代比较慢。

参考

PyTorch中的`Dataset`是一个基础数据集类,它用于从磁盘或其他数据源加载数据,以便供模型训练或评估。如果你想在PyTorch自定义一个数据集,你需要创建一个继承自`torch.utils.data.Dataset`的子类,并实现两个基本的方法: 1. `__len__()`:返回数据集中样本的数量。这对于循环遍历整个数据集至关重要。 2. `__getitem__(index)`:这个方法接收一个索引(通常是整数),并返回对应位置的数据样本。通常情况下,它会打开文件,处理数据,然后返回。 下面是一个简单的例子,假设我们有一个文本分类任务,数据存储在一个CSV文件中,包含两列:文本内容和标签: ```python import torch from torch.utils.data import Dataset class CustomTextDataset(Dataset): def __init__(self, file_path, transform=None): self.file_path = file_path self.texts = [] self.labels = [] with open(file_path, 'r') as f: lines = f.readlines() for line in lines: text, label = line.strip().split(',') self.texts.append(text) self.labels.append(int(label)) # 假设标签是整数 self.transform = transform # 可选的处理步骤 def __len__(self): return len(self.texts) def __getitem__(self, index): text = self.texts[index] label = self.labels[index] if self.transform: # 这里你可以对文本进行任何必要的转换,如分词、编码等 text = self.transform(text) return {'text': text, 'label': label} # 使用示例 dataset = CustomTextDataset('data.csv') dataloader = torch.utils.data.DataLoader(dataset, batch_size=32) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值