- 博客(21)
- 收藏
- 关注
原创 pytorch分布式训练
pytorch分布式训练最常见的有两种DP和DDP。分别就是DataParallel和DistributedDataParallel。前者是用python的多线程,可能会发生GIL冲突的问题,而且训练的速度会受到主卡的限制,需要十分谨慎地考虑如何分配计算任务。后者是为每一个gpu开启一个python进程,官方解释说用这种方法可以达到更好的多gpu训练效率,相应的我们需要更复杂的代码。另外呢还有两个类不得不提分别是torch.multiprocess和troch.distributed.lauch
2021-11-16 17:17:22
1688
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人