CUDA error: the provided PTX was compiled with an unsupported toolchain.(已解决:多机多卡并行训练配置问题)
于 2024-05-14 14:56:10 首次发布
在进行分布式训练时遇到了CUDA错误:PTX was compiled with an unsupported toolchain。分析发现问题是由于CUDA版本与PyTorch版本不匹配以及在初始化分布式模式时遇到问题。解决方法包括检查和确保环境中的PyTorch版本与CUDA版本一致,以及在shell文件中添加特定代码以适配多机多卡配置。最终,通过升级CUDA版本和PyTorch到兼容版本解决了问题。
订阅专栏 解锁全文
6981

被折叠的 条评论
为什么被折叠?



