Dataparallel 操作 在每张卡上复制模型(总体上更大的内存占用)将计算过程分到多卡上,进行并行 (比如反向传播)汇集到一张卡上计算 loss ,这张卡的内存使用显著高于其他卡。 Refs Pytorch的nn.DataParallel