目录
前言
最近第二次给实验室的服务器配置深度学习环境,很多步骤都忘了,又得找出各种地方收藏的帖子拼凑着看,还有一些新坑要查,就想写一篇总结记录,留着下次操作的时候方便查阅。
以下步骤有很多方法可以达到目的,我只是选择了其中一种,仅供参考。绝大多数步骤都止于完成目的,没有深刻的理解。如有疏漏,还请朋友们指正。
0. 版本匹配
配置之前需要清楚显卡型号,以及对应的操作系统、显卡驱动、CUDA、cudnn、Tensorflow 和 Pytorch 的版本。举我自己的例子,服务器的显卡型号为3090,也就是NVIDIA GeForce RTX 3090。
1、在 nvidia 官网查询适合显卡的驱动:NVIDIA 驱动程序下载
2、查询 Tensorflow 对应的 CUDA、cudnn 以及 Pytorch 对应的 CUDA 版本:
从源代码构建 | TensorFlow (google.cn)
Previous PyTorch Versions | PyTorch
3、查询 CUDA 所支持的驱动和系统版本:CUDA Toolkit Archive | NVIDIA Developer
综上,选择的版本如标题所示,其实当时 tensorflow 2.5.0 和 pytorch 1.8.1 官网还没写相关信息,我是一个一个版本重装试出来的(笨比)。