分布式并行快问快答来咯!|昇思MindSpore分布式并行FAQ

Q1: 进行HCCL分布式训练出错:Init plugin so failed, ret = 1343225860

A1: 在Ascend进行分布式训练时初始化HCCL失败了,通常由于rank_table.json没写对,可以执行此文件hccl_tools.py生成一个新的rank_table.json。或者导入环境变量export ASCEND_SLOG_PRINT_TO_STDOUT=1打开HCCL的日志打印,根据日志中的ERROR信息来排查问题。

Q2: MindSpore执行GPU分布式训练报错如下,如何解决:

Loading libgpu_collective.so failed. Many reasons could cause this:

1.libgpu_collective.so is not installed.

2.nccl is not installed or found.

3.mpi is not installed or found复制

A2: 此问题为MindSpore动态加载集合通信库失败,可能原因如下:

执行环境未安装分布式训练依赖的OpenMPI以及NCCL。

NCCL版本未更新至v2.7.6: MindSpore v1.1.0新增GPU P2P通信算子,该特性依赖于NCCL v2.7.6,若环境使用的NCCL未升级为此版本,则会引起加载失败错误。

Q3:GPU分布式训练场景下,若错误设置环境变量CUDA_VISIBLE_DEVICES的个数小于执行的进程数时,可能导致进程阻塞问题。

A3:此场景下,部分训练进程会提示如下报错:

[ERROR] DEVICE [mindspore/ccsrc/runtime/device/gpu/cuda_driver.cc:245] SetDevice] SetDevice for id:7 failed, ret[101], invalid device ordinal. Please make sure that the 'device_id' set
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值