pytorch 多GPU训练注意事项

博客介绍了多GPU训练的两个注意点。一是在DataLoader中设置drop_last=True,丢弃最后一块数据,避免报错;二是若BN在多GPU要同步,需使用torch.nn.SyncBatchNorm.convert_sync_batchnorm(net).to(device_ids[0]),且要先初始化dist.init_process_group。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.多GPU训练记得DataLoader(dataset=dataset_train, batch_size=config['TRAIN']['BATCH'], shuffle=config['TRAIN']['SHUFFLE'], num_workers=config['TRAIN']['WORKERS'],drop_last=True)中的drop_last=True,把最后一块数据丢掉,不然最后报错。

2.如果BN在多GPU要同步,那么就要用torch.nn.SyncBatchNorm.convert_sync_batchnorm(net).to(device_ids[0]),并且要在这个代码前面,先初设化:dist.init_process_group('gloo', init_method='file:///tmp/somefile', rank=0, world_size=1)net = torch.nn.DataParallel(net, device_ids=device_ids),具体情况如下

import torch.distributed as dist
dist.init_process_group('gloo', init_method='file:///tmp/somefile', rank=0, world_size=1)net = torch.nn.DataParallel(net, device_ids=device_ids)
if config["TRAIN"]["DATAPARALLEL"]["syncbatchnorm"]:
    net = torch.nn.SyncBatchNorm.convert_sync_batchnorm(net).to(device_ids[0])
else:
    net = net.cuda(device=device_ids[0])

 
### PyTorch GPU 训练模型示例代码 在使用 PyTorch 进行 GPU 训练时,需要确保模型、输入数据以及目标张量均被移动到 GPU 上。以下是一个完整的示例代码,展示了如何将模型和数据加载到 GPU 并进行训练[^1]。 ```python import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms # 检查是否有可用的GPU device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 定义一个简单的卷积神经网络 class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1) self.relu = nn.ReLU() self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0) self.fc = nn.Linear(32 * 14 * 14, 10) def forward(self, x): x = self.pool(self.relu(self.conv1(x))) x = x.view(-1, 32 * 14 * 14) x = self.fc(x) return x # 初始化模型并将其移动到GPU model = SimpleCNN().to(device) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 加载MNIST数据集 transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True) # 训练模型 for epoch in range(5): # 训练5个epoch model.train() for batch_idx, (data, target) in enumerate(train_loader): # 将数据和目标张量移动到GPU data, target = data.to(device), target.to(device) # 前向传播 output = model(data) loss = criterion(output, target) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() if batch_idx % 100 == 0: print(f"Epoch [{epoch+1}/5], Step [{batch_idx+1}/{len(train_loader)}], Loss: {loss.item():.4f}") ``` ### 注意事项 1. 在训练之前,必须检查设备是否支持 GPU,并通过 `torch.device` 设置设备。 2. 使用 `.to(device)` 方法将模型、输入数据和目标张量移动到指定设备上。 3. 如果需要保存模型,可以使用 `torch.save` 保存模型权重或完整模型[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值