问题出现在多GPU种的DDP训练。
两种改法:
一、https://blog.youkuaiyun.com/weixin_36670529/article/details/106729116
即find_unused_parameters=True
二、逐层对照网络,将网络中无效的网络层删除。
核心问题就是构建的网络中存在实际不参与forward的部分。
两种修改方式时间上的差异不是很明显。
问题出现在多GPU种的DDP训练。
两种改法:
一、https://blog.youkuaiyun.com/weixin_36670529/article/details/106729116
即find_unused_parameters=True
二、逐层对照网络,将网络中无效的网络层删除。
核心问题就是构建的网络中存在实际不参与forward的部分。
两种修改方式时间上的差异不是很明显。