pytorch函数--dataloader

data
DataLoader的函数定义如下:

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
num_workers=0, collate_fn=default_collate, pin_memory=False,
drop_last=False)
 DataLoader(dataset=train_set, num_workers=4, batch_size=64, shuffle=True)
  1. dataset:加载的数据集(Dataset对象)

  2. batch_size:batch size

  3. shuffle::是否将数据打乱

  4. sampler: 样本抽样,后续会详细介绍

  5. num_workers:使用多进程加载的进程数,0代表不使用多进程

  6. collate_fn: 如何将多个样本数据拼接成一个batch,一般使用默认的拼接方式即可

  7. pin_memory:是否将数据保存在pin memory区,pin memory中的数据转到GPU会快一些

  8. drop_last:dataset中的数据个数可能不是batch_size的整数倍,drop_last为True会将多出来不足一个batch的数据丢弃

### 使用 PyTorch 处理 CIFAR-10 数据集 #### 导入必要的库 为了加载和训练 CIFAR-10 数据集,首先需要导入所需的 Python 库。 ```python import torch import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import torch.nn as nn import torch.optim as optim ``` #### 下载并预处理数据 CIFAR-10 是一个常用的图像识别数据集,包含 60,000 张彩色图像,分为 10 类。每类有 6,000 张图,其中 50,000 张用于训练,10,000 张用于测试[^1]。 ```python transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) ``` 这里应用了一些基本的数据增强技术来提高模型泛化能力,比如标准化操作 `Normalize` 可以使输入数据分布更加稳定[^2]。 #### 创建数据加载器 通过创建 `DataLoader` 对象可以方便地迭代访问整个数据集。 ```python trainloader = DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = DataLoader(testset, batch_size=4, shuffle=False, num_workers=2) ``` #### 定义神经网络结构 下面是一个简单的卷积神经网络定义例子: ```python class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv1 = nn.Conv2d(3, 6, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.fc1 = nn.Linear(16 * 5 * 5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = x.view(-1, 16 * 5 * 5) x = torch.relu(self.fc1(x)) x = torch.relu(self.fc2(x)) x = self.fc3(x) return x net = SimpleCNN() ``` 此部分展示了如何构建一个多层感知机风格的 CNN 架构,适用于解决多类别分类问题[^3]。 #### 设置损失函数与优化算法 选择合适的损失函数对于监督学习至关重要;交叉熵损失常被用来衡量分类任务中的误差大小。 ```python criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) ``` #### 训练循环 编写一段代码来进行多次 epoch 的训练过程,在每次迭代过程中更新权重参数以最小化目标函数值。 ```python for epoch in range(2): # loop over the dataset multiple times running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 2000 == 1999: # print every 2000 mini-batches print(f'[{epoch + 1}, {i + 1}] loss: {running_loss / 2000:.3f}') running_loss = 0.0 print('Finished Training') ``` 这段脚本实现了标准的小批量梯度下降法,并定期打印当前批次平均损失情况以便监控训练进度[^4]。 #### 测试模型性能 最后一步是在独立验证集中评估所学得模型的表现质量。 ```python correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print(f'Test Accuracy of the model on the 10000 test images: {(100 * correct / total)}%') ``` 上述方法能够有效地完成对 CIFAR-10 数据集上的图像分类任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值