个人学习经验总结
卸载目前的cuda toolkit
判断安装方式
很久之前用过了,确认了自己是用.deb安装的就没管.run安装的了
.deb安装检测
输入
dpkg -l | grep -i cuda
.run的安装检测
ai的,没有验证过,大家可以试一试,对比着试一试就知道自己是用什么安装的了
输入
ls -l /usr/local/
cd /usr/local/cuda-X.Y
ls /usr/local/cuda-X.Y/bin | grep uninstall
.deb安装的卸载方式
卸载现有的cuda相关包
sudo apt-get --purge remove "*cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "nsight*"
sudo apt-get autoremove
sudo apt-get autoclean
清理残留文件
sudo rm -rf /usr/local/cuda*
检测是否卸载完成
nvcc --version
输出应该是:
.run安装的卸载方式
因为我不是使用.run的方式安装的,所以没有去实际上手过,但是.run安装的时候好像顺带装了个卸载的程序,卸载应该挺方便的【上面检验是否是.run文件安装的方式也是检验是否存在卸载文件】(这里建议大家直接ai操作,我就不列出了)
安装新的cuda toolkit
检验版本匹配问题
输入
nvidia-smi
可以查看自己的显卡驱动版本,我是下的550的驱动,输入后,显示如下
如果输入后不显示,可以去下载驱动,参考我的这一篇博客(下载的部分就可以了)
安装一定要非常注意cuda和显卡驱动的版本匹配
1. CUDA 12.8 Update 1 Release Notes — Release Notes 12.8 documentation
如上是官网的网址,进入和查看如下
安装对应版本的cuda toolkit
请先别在这里直接安装,我把我踩的坑记录到了PS处,看看再安装吧。
这个官网教程非常的小白,我直接把版本的选择官网贴这里
CUDA Toolkit Archive | NVIDIA Developer
我是选择的cuda12.1,点进去之后选择你的系统,你的架构,版本,然后安装方式,一行行输入代码就可以了
!!!踩坑记录!!!,最后一行代码【sudo apt-get -y install cuda】不能直接输入!!!!
输入之后会直接安装最新版本,甚至会改驱动【头秃】,安装时注意变成例如:
【sudo apt-get install cuda-12-1 #自己改版本号]
安装完成之后进行相关环境配置
安装完成之后,输入
nvcc --version
还是不会有输出,因为没有进行相关的环境配置 ,这里环境配置如下:
sudo cp -P /usr/local/cuda /usr/local/cuda.bak #保险起见,先备份原有连接指向
sudo rm /usr/local/cuda # 删除旧的符号链接(如果存在)
sudo ln -s /usr/local/cuda-12.4 /usr/local/cuda # 创建新链接指向 CUDA 12.4
#我的是cuda12-4,安装时注意自己修改
export PATH=/usr/local/cuda/bin:$PATH # 动态指向当前符号链接版本
再次输入尝试
nvcc --version
ps:
安装类型选择:
建议大家直接按照deb(local)安装
个人尝试过
deb(local):虽然需要输入的较多,但是,安装很快
deb(network):虽然输入少,但是,安装也卡
runfile(local):很久以前尝试过,好像失败了,就没尝试了(当时好像运行起来奇奇怪怪的),补充,这个需要自己手动安装(还要关掉图形化界面再装,好麻烦的样子)
使用.deb安装注意!!
- 安装的最后一行记得改为【sudo apt-get install cuda-12-1 #自己改版本号]
- 输入之后会让你输入【y/n】选择是否直接安装,这个时候请好好阅读一下上面的安装包,看看和自己的驱动是否相符,不符就别装这个版本!!!,输入【n】取消
(本菜鸡直接装,导致直接把我原来的驱动模块给整乱了,然后我手动加载,重写boot,结果是,被迫重装系统了『苦笑』,引以为戒!!)
似乎有两种解决方法,一种是输入【sudo apt instal xxxx #不想的搜了,用的时候问ai吧】禁止修改驱动,一种是直接用run手动安装(我个人太菜,没尝试过,预计应该和我之前尝试过的源码编译安装包下载,自己修改配置差不多)
闲话
个人是为了安装兼容的pytorch,所以想把驱动和cuda tollkit的全都换成特定匹配的,因为其对应关系是:pytorch---依赖--->cuda---依赖--->驱动
现在觉得自己太蠢了『每隔一段时间都会被自己蠢笑,扶额』,可以这样实现:
驱动不改,不在系统上安装cuda toolkit,直接使用conda安装pytorch,人家自己会下匹配一个精简版的cudatoolkit,(自己来各种试,浪费时间+甚至重装了一遍系统,唉),[和我有同样需求的朋友,可以按照我的闲话这个逻辑来试试吧,至少你看到这儿,也就只是重装了一下cuda,而且你看了我的ps的话,应该驱动也没受到影响,只能说,我尝试了小一个星期,希望和我一样的朋友能够节约一点时间吧]
还有,还可以通过conda安装cuda toolkit,还不破坏驱动环境
conda install -c "nvidia/label/cuda-12.1.0" cuda-toolkit
卸载还方便
conda remove cuda-toolkit
这里给我自己留一个pytorch的官网安装接口
https://pytorch.org/get-started/previous-versions/
后续学习进展
- 还是建议大家按照自己电脑上的驱动安装对应版本,不要因为什么原因就装一些看起来匹配实则不匹配的版本(例如我踩雷的550+12-1,怎么装怎么出错)【本质还是我太菜,不会改】
- 还有pytorch官网上,在conda环境下,下载安装对应的版本,会自己下载对应的一个精简的cuda,这和我本机的cuda并不冲突,所以不用特地去改版本
检验是否安装完成
输入
nvcc --version
应该会出现版本号