问题描述:
一、背景:
1、在Linux系统的服务器上,目前已经安装有NVIDIA GPU驱动535.183.01版本和CUDA Toolkit 12.2版本,CUDA Toolkit默认的安装路径是/usr/local/cuda和/usr/local/cuda-12.2,该系统暂时无法使用Docker容器。
2、在MindSpore官网提供的安装方式中,选择MindSpore 2.2.14、CUDA 11.6、Python 3.9、Conda安装的版本,可以看到下方提供了从安装CUDA到安装测试MindSpore的详细过程,其中安装CUDA的步骤中提到了“当默认路径/usr/local/cuda存在安装包的时候,LD_LIBRARY_PATH环境变量不起作用;原因是MindSpore采用DT_RPATH方式支持无环境变量启动,减少用户设置;DT_RPATH优先级比LD_LIBRARY_PATH环境变量高。”,下文称这段文字为注解。
二、问题:
1、请问对于已经安装了CUDA Toolkit 12.2的系统,/usr/local/cuda下面已经有了CUDA Toolkit 12.2,此时安装CUDA Toolkit 11.6到/usr/local/cuda-11.6并配置PATH和LD_LIBRARY_PATH,是否可以完成MindSpore的安装?
2、如果能的话,MindSpore安装文档中提供的注解应当如何理解,是否需要额外的操作?
2、如果不能的话,在这样的多版本CUDA共存的系统里,除了使用Docker容器的方式,应该如何安装MindSpore?
解决方法:
/usr/local/cuda其实是个软连接,指向具体的/usr/local/cuda-12.2或者/usr/local/cuda-11.6等版本,安装cuda时,如果没有这个软连接,会直接创建,如果有的话,会直接覆盖,直接指向最新安装的那个cuda版本目录,一般情况下,可以直接手动修改/usr/local/cuda软连接指向的具体cuda版本目录,就可以切换mindspore所使用的cuda版本,实现多版本共存;
或者也可以使用conda的方式,去安装适配不同的cuda动态链接库版本(就是在你机器上已经装了12.2,使用conda也可以搭建起来mindspore所需要的11.6的运行环境),可以参考这个链接:
https://zhuanlan.zhihu.com/p/364284533