文章背景
linux系统挺折腾人的,前几天停电,电脑开机后网卡驱动又炸了(windows系统明明好好的,linux就是连不上网)。
由于人不在学校,只好请我们的朱博(太感谢了!!)帮我们看看情况,结果发现用以前的方法不管用了,说是内核坏了,这下折腾大了,只能重装(人已经麻了),东西备份了一个晚上,终于重装成功了。
现在的问题是电脑什么都没有,想想要重新配置就很头疼,干脆逼自己养成记录的习惯,接下来就是我配置整套pytorch的全过程记录。
主要步骤
已经被环境配置这玩意折腾很多次了,每次重新配置都会比之前更进一步地理解某些命令或者操作的意义,所以这次配置总体算是顺利,主要的配置流程如下:
- 安装NVIDIA驱动
- 安装Anaconda
- 安装Pytorch
1-安装NVIDIA驱动(命令’nvidia-smi’成功输出则跳过该步骤)
这一步是相对繁琐的一步,这一步解决了,后面的相信大部分的兄弟都自己装过,也是我这次主要想记录的地方,没有这一步就没法让显卡真正发挥作用。
-
①不同型号的显卡对应的驱动版本是不同的,我们需要先查询我们显卡的版本:
lspci | grep NVIDIA
这里如果黄色框范围内的看不出来,直接复制百度搜索一下就可以知道显卡版本,这里是两张3090,每张卡对应两行输出。 -
②知道显卡型号后我们还可以直接命令查询显卡推荐的驱动版本:
ubuntu-drivers devices
可以看到这里推荐的版本是515的,可以给我们后续的在NVIDIA官网下载驱动提供参考,因为下载510、470也是没太大问题的。 -
③进入NVIDIA官网(https://www.nvidia.cn/Download/index.aspx?lang=cn)可以根据自己的显卡进行选择,页面如下:
操作系统用’arch’查一下(如果读者不是ubuntu的话)下载类型选择‘生产力分支’才有对应的515驱动版本,语言应该是不影响的,保险起见还是选择英文,点击搜索,进入下载页面。 -
④在等待下载期间,我们需要禁用Ubuntu的nouveau驱动,如果不禁用NVIDIA的驱动会安装失败的,具体为什么可以百度一下,看了几个博客也没讲特别清楚,大概是类似于两种驱动有些冲突。这里网上也有很多相关教程的,我也只是整理了一下:
首先检测一些是否已成功禁用(若禁用成功无任何输出),lsmod | grep nouveau
若有输出,进入到黑名单文件夹中,可以在modprobe.d里面看到许多黑名单文件(blacklist):
cd /etc/modprobe.d sudo vi blacklist.conf
接着往文件末尾添加两行语句:
blacklist nouveau options nouveau modeset=0
然后重启,再次输入检查是否禁用的语句,若无输出则可以进入下一步。
-
⑤这时候在安装之前还需检查系统是否安装了gcc和make了,安装驱动时需要这两样工具,如果不提前配置好这两个工具,安装驱动的过程中也会提醒安装的。
若输入以下内容能正常输出版本内容即可跳过这一步:gcc -v make -v
若显示命令未找到,则直接下载安装即可:
sudo apt-get install gcc make
-
⑥ 最后一步安装NVIDIA驱动,进入到下载run文件的文件夹,
修改一下run文件的权限,使其可执行:sudo chmod 755 NVIDIA-Linux-*******.run
接着直接运行该run文件,若每一步都跟着上面走,接下来的操作全部按默认选项操作:
sh ./NVIDIA-Linux-*******.run
检查驱动是否成功安装(若无下图的输出,先重启电脑再执行以下命令):
nvidia-smi
2-安装Anaconda
第一步驱动解决了,后面就相对比较简单了,这里挖个坑,其实在这一步之前还需安装CUDA,但作为新手入门篇暂时不安装,也不会影响后续显卡的使用,后面有时间可以另起一篇来记录cuda的安装过程。
- ①直接上Anaconda官网下载安装包(https://www.anaconda.com/),然后进入下载的文件夹,开启终端界面:
sh Anaconda3-xxxxxxx-Linux-x86_64.sh
- ②安装过程中一路按‘回车’或者输入’Y’即可,如果想要自己配置环境变量,在对应的提示中选择no即可,其实全部选择‘Y’也是没问题的,而且自动配置环境变量。
- ③安装完成后若出现以下界面即说明安装成功:
- ④最后要养成更换conda下载源的好习惯,不然在下载如pytorch等大型库时,简直度日如年(可以看看我上一篇文章),这里不需要参考其他换源教程,官网的配置永远是最全最完善的,
先在终端退出到根目录(命令:cd),然后找到.condarc文件:
然后,参照清华源官网的帮助教程复制黏贴即可(https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/)。当然,想要添加其他如中科大源,北外源同理,但对于下面Pytorch的安装已经足够。vi .condarc
3-安装Pytorch
想要快速入门深度学习,安装pytorch是必备的选项,简单的语法与可读性使得其相比于其他深度学习框架更容易上手。
- ① 此时仍处于base环境的状态,一般为了更方便更安全地管理环境,都需要我们重新创建虚拟环境(当然直接在base环境进行配置也没问题,只是配置风险较大,搞不好整个anaconda得重装),虚拟环境可以随时删除和创建,对新手非常友好,有非常大的容错空间,所以这一步需要创建新的conda环境:(python版本建议不要超过3.9,可以参考我上一篇血泪史)
conda create --name yourEnv python=3.7
- ② 创建环境后,进入对应的环境:
conda actiavte yourEnv
- ③ 同样的进入Pytorch官网(https://pytorch.org/get-started/locally/)查询对应Pytorch版本,可以看到以下选择界面:
CUDA版本的选择需要用‘nvidia-smi’进行查询,黄色框的版本表示目前显卡驱动能支持的最高CUDA版本,具体解释可以参照这篇文章(https://zhuanlan.zhihu.com/p/396344997),文章也同样解释了前面选择可以不在系统安装CUDA的原因。
- ④复制上图的安装命令直接安装即可(若前面的配置顺利且同时根据清华源的换源说明进行换源,则会十分顺利)
- ⑤例行检查Pytorch是否安装成功,进入Python环境:
$ >> import torch $ >> torch.cuda.is_available() True