1、debug一圈,发现
torch.backends.cudnn.deterministic = True
会拖慢速度,影响还挺大。查资料说这是为了保证能复现结果的设置,不知道为啥这么慢。
注释掉后速度提升了3倍左右。
2、batchsize不是越大越好,之前看一篇博客说要占满显卡内存,结果发现显卡的利用率50%都不到,调小后速度明显提升,显卡利用率也80%浮动。
3、Dataloader里的num_worker数量也会影响CPU数据处理的线程,也不是越多越好,网上找了个代码测试合适的num_worker数量:
from time import time
import multiprocessing as mp
import torch
from Dataset.xxx import Feeder
trainset = Feeder(data_path='xxxx')
print(f"num of CPU: {mp.cpu_count()}")
for num_workers in range(0, mp.cpu_count(), 2):
train_loader = torch.utils.data.DataLoader(trainset, shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True)
start = time()
for epoch in range(1, 3):
for i, data in enumerate(train_loader, 0):
pass
end = time()
print("Finish with:{} second, num_workers={}".format(end - start, num_workers))
此外,如果数据量不大,比如我的才1w不到,你用较大的num_worker会严重影响运行速度,因为CPU线程通讯占据了大部分时间。
注意:num_worker数量和batchsize是一起配合的,否则会出现显卡利用率低。