PyTorch 自定义 Dataset 及训练集、测试集划分方法

最新推荐文章于 2024-10-19 12:18:18 发布

原创最新推荐文章于 2024-10-19 12:18:18 发布 · 2.9w 阅读

109 ·

CC 4.0 BY-SA版权

PyTorch 基础专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何使用torch.utils.data模块在PyTorch中创建自定义数据集，并通过random_split划分训练集、验证集和测试集，同时展示了通过普通遍历和DataLoader进行样本加载的方法。

部署运行你感兴趣的模型镜像

实例 1：自定义数据集类，torch.utils.data.random_split() 划分训练集和测试集，通过普通遍历方式使用自定义数据集中的样本

import numpy as np
import torch
from torch.utils.data import Dataset, DataLoader

random_data = np.random.randn(10,3)
print(random_data)
print("#"*len(random_data))


class MyDataSet(Dataset):
    def __init__(self, loaded_data):
        self.data = loaded_data
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx]
    

custom_dataset = MyDataSet(random_data)

for i in range(len(custom_dataset)):
    print(custom_dataset[i])
    

train_size = int(len(custom_dataset) * 0.7)
test_size = len(custom_dataset) - train_size
train_dataset, test_dataset = torch.utils.data.random_split(custom_dataset, [train_size, test_size])

print(len(train_dataset))
print(len(test_dataset))

print("#"*len(custom_dataset))

for i in range(len(train_dataset)):
    print(train_dataset[i])

print("#"*len(train_dataset))
    
for i in range(len(test_dataset)):
    print(test_dataset[i])

输出：
实例 2：自定义数据集类，torch.utils.data.random_split() 划分训练集和测试集，通过 dataloader 方式使用自定义数据集中的样本

import numpy as np
import torch
from torch.utils.data import Dataset, DataLoader

random_data = np.random.randn(10,3)
print(random_data)
print("#"*len(random_data))


class MyDataSet(Dataset):
    def __init__(self, loaded_data):
        self.data = loaded_data
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx]
    

custom_dataset = MyDataSet(random_data)

for i in range(len(custom_dataset)):
    print(custom_dataset[i])
    

train_size = int(len(custom_dataset) * 0.5)
validate_size = int(len(custom_dataset) * 0.2)
test_size = len(custom_dataset) - validate_size - train_size
train_dataset, validate_dataset, test_dataset = torch.utils.data.random_split(custom_dataset, [train_size, validate_size, test_size])


train_loader = DataLoader(train_dataset, batch_size=1, shuffle=False, num_workers=0)
validate_loader = DataLoader(validate_dataset, batch_size=1, shuffle=False, num_workers=0)
test_loader = DataLoader(test_dataset, batch_size=1, shuffle=False, num_workers=0)

print(len(train_loader))
print(len(validate_loader))
print(len(test_loader))



for i, train_sample in enumerate(train_loader):
    print("{} {}".format(i, train_sample))

    
for j, validate_sample in enumerate(validate_loader):
    print("{} {}".format(j, validate_sample))


for k, test_sample in enumerate(test_loader):
    print("{} {}".format(k, test_sample))

参考

https://pytorch.org/tutorials/recipes/recipes/custom_dataset_transforms_loader.html?highlight=custom%20dataset

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

8 条评论

Tomorrow； 2021.10.26
train loader变成int型，后面会带来一系列麻烦，图片和标签不能传入GPU，train loader也不能遍历
- Allard_Ting回复Tomorrow； 2022.05.14
  那两行只是计算 train 和val的数据大小，当然是用int，并没有改变你说的train loader
- Tomorrow；回复N__e__o__ 2022.04.22
  这个代码第27行和第29行，将train loader变成了int型，但是train loader只能是tensor型
- N__e__o__回复Tomorrow； 2022.04.22
  您好，请问“train loader变成int型”具体是指什么呀