在mindspore中如何使用hccl通信

问题描述:

使用的是8张910的服务器,在NPU之间使用hccl通信,在过程中需要1个npu向别的Npu发送一些tensor(暂时先不管模型训练那些),这样的过程如何用python程序表示,并行启动方式应该选择msrun还是ranktable启动呢?

解决方法:

hccl的通信都是封装在框架里调用了,实际并行训练的过程中,python层面是感知不到的,代码中配置对应的并行模式后,自动使用hccl传输,可以参考下mindformer等大模型套件下的并行训练配置;msrun和ranktable启动都可以的,以前的版本在昇腾环境基本都用ranktable,现在官方是推荐使用msrun启动,昇腾和GPU都支持,工具内部会根据硬件环境自动调用昇腾的hccl或者GPU的nccl,可以参考官网并行文档:

https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.1/parallel/overview.html

36.png

如果你偏向于使用手动实现并行逻辑,也可以参考手动并行文档:

https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.1/parallel/manual_parallel.html

37.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值