Pytorch DataLoader一次性封装多种数据集(pytorch Data学习六)

本文介绍了如何使用PyTorch中的DataLoader配合DataSet,详细讲解了DataSet的__init__和__getitem__方法,以及如何设置batch_size进行数据分批加载。通过实例展示了如何创建和操作数据集,以满足深度学习训练的需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PytorchDataLoader不能够直接达到这个效果,必须要借助DataSet来实现

DataSet的用法可以参考:pytorch 构造读取数据的工具类 Dataset 与 DataLoader (pytorch Data学习一)

示例代码

from torch.utils.data import Dataset, DataLoader
import numpy as np


class MyDataSet(Dataset):
    def __init__(self):
        sample = 20000  # 数据量
        self.data_1 = np.random.randn(sample) # 数据集1
        self.data_2 = np.random.randn(sample) # 数据集2
        self.data_3 = np.random.randn(sample) # 数据集3
        self._len = sample  # 必要,定义最大循环次数,一般也是全部的数据量

    def __getitem__(self, item: int):  # 这个item即为下标,整数
        # 每次循环的时候返回的值
        return self.data_1[item], self.data_2[item], self.data_3[item]

    def __len__(self):
        return self._len


if __name__ == '__main__':
    data = MyDataSet()
    dataloader = DataLoader(data, batch_size=3, shuffle=False, num_workers=0)  # 这里的batch_size
    n = 0
    for data_1, data_2, data_3 in dataloader:
        print("迭代{}次".format(n), data_1.numpy(), data_2.numpy(), data_3.numpy())
        n += 1

DataSet__getitem__函数中,根据下标item取到数即可。在DataLoader中,batch_size定为多少,每次取数时就会循环多少次__getitem__,然后一并打包取出来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆萌的代Ma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值