mmcv多gpu训练卡住。

当使用mmcv进行多GPU训练时遇到卡住的情况,可以尝试修改.bashrc文件,添加NCCL_P2P_DISABLE和NCCL_IB_DISABLE环境变量,或者将通信后端从nccl更改为gloo来解决问题。这两种方法都可能有效,具体取决于系统配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现象

运行mmcv的训练代码,卡在这里。gpu利用率100%。不报错。单卡不会有问题。问题仅出现在多gpu训练时。

2021-11-17 17:31:12,287 - mmdet - INFO - initialize RPNHead with init_cfg {'type': 'Normal', 'layer': 'Conv2d', 'std': 0.01}                                                                                       
2021-11-17 17:31:12,290 - mmdet - INFO - initialize Shared2FCBBoxHead with init_cfg [{'type': 'Normal', 'std': 0.01, 'override': {'name': 'fc_cls'}}, {'type': 'Normal', 'std': 0.001, 'override': {'name': 'fc_reg
'}}, {'type': 'Xavier', 'override': [{'name': 'shared_fcs'}, {'name': 'cls_fcs'}, {'name': 'reg_fcs'}]}]                                                                                                           
loading annotations into memory...                                                                                                                                                                                 
Done (t=0.42s)                                                                                                                                                                                                     
creating index...                                                                                                                                                                                                  
index created!                                                                                                                                                                                                     
loading annotations into memory...                                                                                                                                                                                 
Done (t=0.06s)                                                                                                                                                                                                     
creating index...                                                                                                                                                                                                  
index created!                                                                                                                                                                                                     
2021-11-17 17:31:13,772 - mmdet - INFO - load checkpoint from http path: https://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_1x_coco/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth

解决方案

1、修改bashrc(对我有用)

在 ~/.bashrc中添加下面的代码

sudo vim  ~/.bashrc

最下面添加下面的代码。

export NCCL_P2P_DISABLE="1"
export NCCL_IB_DISABLE="1"

刷新使更改生效

source ~/.bashrc

2、把通信后端从nccl改为gloo

修改文件configs/base/default_runtime.py
dist_params = dict(backend=‘nccl’)dist_params = dict(backend=‘gloo’)

github问题讨论

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值