目录
5.1torch,torchvision,python版本对应关系
前言
由于项目需要,实验室更新50系显卡若干,深度学习炼丹准备中,由于50系显卡使用新架构,故驱动安装与之前相比有亿点点不一样,对驱动版本要求较之前更为严格。
本文以博主本人的踩坑经历整合凝练而成,旨在手把手帮助使用50系显卡的你减少在驱动安装过程中浪费的时间,尽快完成深度学习环境搭建。
一、安装环境介绍
博主本人使用设备有两台,分别是RTX5090,操作系统为win11+Ubuntu22.04双系统,以及RTX5070,操作系统为win10+Ubuntu22.04双系统,本文所有步骤均在两个设备中成功实现,可放心食用。
二、nvidia显卡驱动安装
nvidia显卡驱动安装有多种途径, 比如可以使用ubuntu 系统自带的“软件和更新”程序-附加驱动更新进行驱动安装,或使用apt命令指定版本安装,本文展示的方法仅为官网下载驱动安装方法,其他方法读者可自行探索,本文不作赘述。
2.1查看显卡型号(不重要可略过)
终端输入代码
lspci | grep -i vga
根据输出信息2b85查询显卡型号,网址:PCI devices,结果如下图
可以看到显卡型号为Geforce RTX 5090
2.2显卡驱动下载
NVIDIA驱动官方下载地址:下载 NVIDIA 官方驱动 | NVIDIA
根据自己设备型号及操作系统选择相应版本,结果如下:
点击查找 ,会自动列出所有适用版本驱动,这里我们选择570.153.02版本驱动。
点击查看驱动,即可跳转详情页面,点击下载,等待完成。
至此驱动安装准备工作完成。
2.3显卡驱动安装(重要)
首先安装所需包,依赖,依次输入以下代码
sudo apt-get update
sudo apt-get install g++
sudo apt-get install gcc
sudo apt-get install make
禁用系统自带驱动,防止与新驱动发生冲突
终端输入:
sudo vim /etc/modprobe.d/blacklist.conf
在文档末尾添加以下语句:
blacklist nouveau
options nouveau modeset=0
添加完成后使用:q退出并保存文档
更新文件,终端输入:
sudo update-initramfs -u
此时终端输入reboot重启系统
sudo reboot
PS:如果这一步没有安装vim的友友,可以使用以下命令安装:
sudo apt install vim
查看 nouveau是否禁用成功,终端输入:
lsmod | grep nouveau
如果没有返回值,则说明禁用成功。
在驱动下载位置打开新终端,安装驱动。
首先授予文件权限,终端输入:
sudo chmod 777 NVIDIA-Linux-x86_64-550.78.run
运行安装程序,终端输入:
sudo ./NVIDIA-Linux-x86_64-550.78.run
安装程序成功运行的话会出现以下界面,按照图片顺序依次选择,千万不要选错!!!!
如果顺利的话到这一步驱动已经成功安装!!!
PS:极少数情况会在安装过程中发生报错,检查日志,如果发现出现 cc: error: unrecognized command-line option ‘-ftrivial-auto-var-init=zero,大概率是gcc版本不匹配,可以直接参考这篇博文解决安装Nvidia驱动出现报错 cc: error: unrecognized command-line option ‘-ftrivial-auto-var-init=zero’解决_cc: error: unrecognized command-line option '-ftri-优快云博客
接下来验证驱动是否已经成功安装,终端输入:
nvidia-smi
如果成功安装会出现以下界面:
列表中会显示显卡型号及驱动版本以及CUDA限制版本。
此时一定不要直接重启系统,否则会出现黑屏情况 ,如果你不想被左上角跳动的横线闪到破防,请跟着我进行安装过程中最重要的一步!!!!
安装lightdm显示管理器,终端输入:
sudo apt-get install lightdm
正常安装完成会自动提示选择默认显示管理器,如下图:
选择lightdm为默认显示管理器,回车退出。
如果没有自动触发,可以输入以下代码触发:
sudo dpkg-reconfigure lightdm
保险起见,直接禁用gdm3
sudo service gdm3 stop
此时可以放心重启,终端输入:
sudo reboot
重启后正常进入图形化界面,再次验证驱动安装是否成功。
终端输入:
nvidia-smi
安装成功!!!
碎碎念:这一步可能是困扰各位最久的部分,博主刚开始装驱动在这一步差点被气到破防,但是由于有装cartographer的经历(装过的都懂),也就重装了五次系统而已,使用 lightdm的原因是它较gdm3而言有兼容性更强,反复测试过程中再也没有出现黑屏卡死情况。
三、CUDA+cuDNN安装
50系显卡目前支持CUDA最低版本为12.8,本文安装版本选择CUDA12.8,安装方式采用run文件安装,这种方式虽然较为繁琐,但较为稳定。
3.1CUDA下载
CUDA官方下载链接:CUDA Toolkit Archive | NVIDIA Developer
这里版本选择12.8.1,进入下载界面并选择相应的操作系统与版本,系统会自动生成下载及安装命令。
按照官方提供的代码下载CUDA,终端输入:
wget https://developer.download.nvidia.com/compute/cuda/12.8.1/local_installers/cuda_12.8.1_570.124.06_linux.run
3.2CUDA安装
在下载目录打开新终端,执行安装命令:
sudo sh cuda_12.8.1_570.124.06_linux.run
等待一段时间(大概三分钟),会出现下图界面,在光标处输入accept进入安装程序
由于我们已经手动安装了显卡驱动,故需要将驱动安装选项手动关闭,如下图
完成操作后选择install开始安装,等待安装完成。此时使用nvcc -V命令查看CUDA安装版本会出现以下报错:
此时不要慌,进行下一步。
3.3环境变量配置
使用vim打开bashrc文件
sudo vim ~/.bashrc
在末尾添加如下语句:
export PATH="/usr/local/cuda-12.8/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH"
添加后退出并保存,更新环境变量:
source ~/.bashrc
此时再次输入以下命令,即可正常显示CUDA版本:
nvcc -V
至此CUDA安装完成。
3.4cuDNN下载
cuDNN官方下载地址:cuDNN Archive | NVIDIA Developer
由于我们使用的CUDA版本为12.8,故直接选择第一个版本V8.9.7进行下载:
cuDNN有两种安装方式,这里我们选择下载tar方式,点击linux版本安装包进行下载。
PS:在这一步中会强制要求注册NVIDIA账户才能下载,拿邮箱随便注册一个就好了。
验证NVIDIA账户后文件会自动下载,等待下载完成,下载结束会得到一个tar压缩包。
3.5cuDNN安装
在文件下载位置开启新终端,输入以下命令进行解压:
tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
解压后得到一个文件夹,接下来要将所需文件复制到cuda文件夹中,由于目标文件夹需要更高级权限,所以不能直接复制粘贴,运行以下命令进行复制操作:
sudo cp cudnn-linux-x86_64-8.9.7.29_cuda12-archive/include/cudnn* /usr/local/cuda-12.8/include
sudo cp -P cudnn-linux-x86_64-8.9.7.29_cuda12-archive/lib/libcudnn* /usr/local/cuda-12.8/lib64
复制完成后赋予文件权限:
sudo chmod a+r /usr/local/cuda-12.8/include/cudnn*.h /usr/local/cuda-12.8/lib64/libcudnn*
输入以下命令检查cuDNN安装情况:
cat /usr/local/cuda-12.8/include/cudnn.h | grep CUDNN_MAJOR -A 2
如果无返回值,输入以下命令:
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
会得到以下输出结果,本次安装版本为8.9.7:
到此cuDNN安装完成。
四、anaconda安装
4.1anaconda下载
anaconda官方下载页面:Download Now | Anaconda
ananconda有两个版本,如果内存较小建议安装miniconda,节省内存。
下载Linux版本anaconda:
4.2anaconda安装
下载完成后移动到下载目录运行以下代码开始安装:
sudo bash Anaconda3-2025.06-0-Linux-x86_64.sh
以下界面输入yes回车开始安装:
接下来这里系统会默认选择一个安装位置,如果想指定安装目录,需要手动输入安装位置,并回车确认:
安装过程中出现yes/no选项一律输入yes,直到安装成功:
4.3环境变量配置
安装完成后,需要配置环境变量,还是使用相同命令打开bashrc文件:
sudo vim ~/.bashrc
最后一行依旧加入anaconda安装目录,按自己的安装目录进行添加,我的如下:
export PATH="/home/ubuntu/anaconda3/bin:$PATH"
添加完成后保存并退出,使用以下命令更新环境变量:
source ~/.bashrc
验证conda安装是否成功,终端输入:
conda --version
输出conda版本表示安装成功。
五、pytorch安装
在Ubuntu下安装pytorch同样有多种方式,包括pip安装,conda安装,whl文件安装等,使用者可以选择自动安装或手动指定版本的方式进行安装。
本文仅提供执行官网自动生成的pip安装指令的方法,以Python3.10环境为例进行自动安装,有其他需求的读者可自行探索。
5.1torch,torchvision,python版本对应关系
RTX50系显卡作为NVIDIA推出的基于新架构的GPU产品,机器学习框架需要相应地更新以支持这些硬件。目前对于50系显卡来说,Pytorch只适配了Preview(Nightly)版本,常规的Stable版不能使用,如果安装老版本驱动,会出现报错。
原因为PyTorch稳定版的预编译二进制文件不支持sm_120计算能力。RTX 50系显卡采用了较新的架构,需要更新的CUDA版本以及对应的PyTorch版本才能正常工作。
torch,torchvision,python版本对应关系如下:
torch版本 | torchvision版本 | 支持的Python版本 |
nightly | nightly | >=3.9,<3.13 |
2.5 | 0.20 | >=3.9,<3.13 |
2.4 | 0.19 | >=3.8,<3.13 |
2.3 | 0.18 | >=3.8,<3.13 |
2.2 | 0.17 | >=3.8,<3.13 |
2.1 | 0.16 | >=3.8,<3.13 |
2.0 | 0.15 | >=3.8,<3.13 |
需要注意的是, nightly版本pytorch只支持Python3.9及以上的版本,创建虚拟环境的时候要多加注意,且老版本的项目也无法在环境下运行!!
CUDA12.8对应nightly版本pytorch下载网址:https://download.pytorch.org/whl/nightly/cu128https://download.pytorch.org/whl/nightly/cu128
5.2建立anaconda虚拟环境
首先介绍几个常用的conda命令,记住这几条就可以满足日常使用。
conda create --name env_name #建立新环境
conda create --name env_name python=3.x # 创建指定python版本
activate env_name #激活指定环境
deactivate #退出当前环境
conda remove --name env_name --all #删除指定环境
conda env list #列出已存在的所有环境
conda list #列出当前环境安装的所有包及其版本
输入以下命令建立指定Python版本为3.10的虚拟环境cp310:
conda create -n cp310 python=3.10
激活该环境:
conda activate cp310
正常激活后命令行开头会出现(cp310)字样,表明你已经处于这个环境中,如下图所示:
有概率出现以下报错:CondaError: Run 'conda init' before 'conda activate'
提醒我们在使用 conda activate
激活环境之前,需要先对 Conda 进行初始化。
解决方法也很简单,终端输入:
conda init "$(basename "${SHELL}")"
该命令会自动执行初始化操作,之后打开新终端输入激活命令,即可正常使用。
至此虚拟环境建立成功。
5.3pytorch安装
打开pytorch官网查看安装命令:Get StartedSet up PyTorch easily with local installation or supported cloud platforms.https://pytorch.org/get-started/locally/
依次选择nightly版本,Linux操作系统,pip安装方式,Python语言,CUDA12.8版本,选择完成后系统会自动生成pip安装命令,复制安装命令备用。
打开一个新终端,首先查看已存在的环境:
conda env list
进入创建好的cp310环境:
conda activate cp310
输入上一步复制的自动安装命令:
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
该命令会自动寻找并下载最新版本的相关安装包并自动安装torch,torchvision,torchaudio。安装时间较长,请耐心等待安装完成。
另外再次提醒读者,安装pytorch所需内存空间较大,安装前请务必确认留足存储空间!!!
安装完成后终端输入python进入环境:
python
加载pytorch,注意这里命令是torch而不是pytorch:
import torch
使用以下命令查看pytorch是否安装成功:
torch.cuda.is_available()
终端输出True则说明pytorch已成功安装。
使用以下命令查看环境中所有的包:
conda list
从上图中可以看到 ,torch版本为2.9.0,torchvision版本为0.24.0,torchaudio版本为2.8.0,至此pytorch安装成功。
经过验证,上述安装步骤在Python3.9,Python3.11环境中均适用:
六、pycharm上部署pytorch
首先安装社区版pycharm,具体过程不再赘述,可参考此篇博文:
Ubuntu22.04下的pycharm安装https://blog.youkuaiyun.com/m0_74115845/article/details/142035764 新建项目,添加解释器:
这里选择自定义环境->选择现有->类型选择conda->路径默认为conda安装路径->环境选项可选择在conda下已建立的所有环境,这里选择cp310环境,即Python版本为3.10的环境,读者可根据需求自行建立环境并选择。
此时在设置中选择Python解释器设置,可以看到项目已加载名为cp310的解释器:
至此在pycharm上部署pytorch成功。