出现上述问题,是因为我是单卡,双卡的分布形式就不会出现该问题,为此,只需要tool/train.py开头加入如下语句即可:
import torch.distributed as dist
dist.init_process_group('gloo', init_method='file:///tmp/somefile', rank=0, world_size=1)
本文介绍了一种解决在使用单张显卡进行模型训练时遇到的问题的方法。通过在训练脚本开头引入特定的分布式初始化代码,可以有效避免该问题的发生。
出现上述问题,是因为我是单卡,双卡的分布形式就不会出现该问题,为此,只需要tool/train.py开头加入如下语句即可:
import torch.distributed as dist
dist.init_process_group('gloo', init_method='file:///tmp/somefile', rank=0, world_size=1)
9260
1937

被折叠的 条评论
为什么被折叠?