分布式并行快问快答来咯！|昇思MindSpore分布式并行FAQ

最新推荐文章于 2025-03-13 01:27:17 发布

huodagu

最新推荐文章于 2025-03-13 01:27:17 发布

阅读量533

点赞数

文章标签：分布式人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/huodagu/article/details/132358618

版权

Q1: 进行HCCL分布式训练出错：Init plugin so failed, ret = 1343225860？

A1: 在Ascend进行分布式训练时初始化HCCL失败了，通常由于rank_table.json没写对，可以执行此文件hccl_tools.py生成一个新的rank_table.json。或者导入环境变量export ASCEND_SLOG_PRINT_TO_STDOUT=1打开HCCL的日志打印，根据日志中的ERROR信息来排查问题。

Q2: MindSpore执行GPU分布式训练报错如下，如何解决:

Loading libgpu_collective.so failed. Many reasons could cause this:

1.libgpu_collective.so is not installed.

2.nccl is not installed or found.

3.mpi is not installed or found复制

A2: 此问题为MindSpore动态加载集合通信库失败，可能原因如下:

执行环境未安装分布式训练依赖的OpenMPI以及NCCL。

NCCL版本未更新至v2.7.6: MindSpore v1.1.0新增GPU P2P通信算子，该特性依赖于NCCL v2.7.6，若环境使用的NCCL未升级为此版本，则会引起加载失败错误。

Q3：GPU分布式训练场景下，若错误设置环境变量CUDA_VISIBLE_DEVICES的个数小于执行的进程数时，可能导致进程阻塞问题。

A3：此场景下，部分训练进程会提示如下报错：

[ERROR] DEVICE [mindspore/ccsrc/runtime/device/gpu/cuda_driver.cc:245] SetDevice] SetDevice for id:7 failed, ret[101], invalid device ordinal. Please make sure that the 'device_id' set

最低0.47元/天解锁文章

博客等级

码龄3年

20
原创

3
点赞

17
收藏

1
粉丝

关注

私信

热门文章

最新评论

框架互换，全程无忧！|昇思MindSpore第三方框架迁移使用FAQ
优快云-Ada助手: 恭喜您完成了第11篇博客！标题非常吸引人，看起来像是一篇关于框架互换的实用指南。您对昇思MindSpore第三方框架的迁移使用问题进行了详细解答，这对于那些在探索不同框架之间切换的开发者来说一定非常有帮助。在接下来的创作中，我谦虚地建议您可以继续分享关于框架互换的经验和技巧。您可以深入探讨一些常见的问题，并提供更多实际案例和解决方案，这样读者可以更好地理解并应用您的建议。期待您的下一篇博客！
精度or性能调优，so easy！| 昇思MindSpore调优问题FAQ
优快云-Ada助手: 恭喜您撰写了第12篇博客！标题看起来非常吸引人，精度或性能调优确实是一个重要的话题。您在这个领域的知识和经验一定非常丰富。对于读者来说，这篇博客一定会提供宝贵的见解和解决问题的方法。接下来，我希望您能够继续分享更多关于MindSpore调优的FAQ，或者探讨其他相关话题。期待您下一篇博客的发布！谢谢您的分享和努力！
分布式并行快问快答来咯！|昇思MindSpore分布式并行FAQ
优快云-Ada助手: 恭喜您写了第13篇博客！标题看起来非常吸引人，似乎是关于分布式并行的问答。很高兴看到您对这个话题的深入探讨。我想向您提出一些建议，希望能给您下一步的创作带来一些启发。首先，我建议您在博客中详细介绍一下分布式并行的基本概念和原理，这样读者能更好地理解您的问题和答案。其次，您可以考虑加入一些实际案例或者示例代码，以帮助读者更好地理解和应用这些概念。最后，您可以思考一下如何与读者进行互动，比如设置一个问题解答的留言区，以便读者可以提出他们自己的问题并得到您的回答。总之，我希望您能够继续坚持创作，并以更加谦虚的态度与读者分享您的知识和经验。加油！
推理经验各种足！|昇思MindSpore推理FAQ
优快云-Ada助手: 恭喜您撰写了第14篇博客！标题中的“推理经验各种足！”真是令人期待。通过FAQ的形式，您为读者提供了宝贵的推理经验，这对于初学者来说尤为重要。不过，我认为您可以考虑在下一篇博客中分享一些实际案例，将理论与实践相结合，这样读者们能更好地理解和应用您的推理经验。期待您的下一篇作品！
特性分析helps u further~|昇思MindSpore特性FAQ
优快云-Ada助手: 恭喜您撰写了第15篇博客！标题“特性分析helps u further~|昇思MindSpore特性FAQ”读起来就很吸引人。您对MindSpore特性的深入分析给我们带来了很多启发。在这个快节奏的科技时代，了解产品的特点非常重要，而您的博客为我们提供了宝贵的参考资料。希望您能继续保持创作的热情，并分享更多关于MindSpore及其他相关技术的见解和经验。期待在您未来的博客中看到更多精彩内容！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。