服务器已经存在CUDA但无法使用GPU

最新推荐文章于 2024-07-18 12:06:24 发布

Mr.777

最新推荐文章于 2024-07-18 12:06:24 发布

阅读量4k

点赞数 2

CC 4.0 BY-SA版权

文章标签：服务器运维 tensorflow

本文链接：https://blog.youkuaiyun.com/qq_48494339/article/details/131518249

在服务器上使用Tensorflow时发现不能利用GPU。通过检查发现CUDA已安装但未配置cudnn。下载并安装适配CUDA版本的cudnn，解压后更新环境变量。在.bashrc中添加路径并执行source.bashrc后，成功使Tensorflow识别GPU。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记录一下我使用服务器期间遇到的问题以及解决方法（主要使用tensorflow）

先介绍一下我本次遇到的问题：

我在服务器上拥有一个独立的账号，我发现我的tensorflow无法调用GPU，先排查可能存在的问题

终端输入

nvcc -V

结果如下：

显示已经安装了11.8版本的CUDA

但是在python文件中调用

import tensorflow as tf

print(tf.test.is_gpu_available())

结果显示为false

在终端输入

echo $LD_LIBRARY_PATH

结果为空，猜测是没有安装cudnn，以下是解决过程

首先进入官网下载一个适配的cudnn版本，官网链接

因为我的CUDA版本是11.8，我选择v8.9.0 for CUDA 11.x的版本

下载后是一个.tar.xz的文件，直接上传到服务器中你的文件夹下，然后使用下面两条指令进行解压

xz -d cudnn-linux-x86_64-8.9.0.131_cuda11-archive.tar.xz

tar -xvf cudnn-linux-x86_64-8.9.0.131_cuda11-archive.tar

解压得到一个文件夹，进入后包含下面三个

然后我们进入你个人账户下的.bashrc文件，在其中添加这样一行内容（根据你自己的路径进行更改）：

export LD_LIBRARY_PATH="/home/Users/qjw/cudnn-linux-x86_64-8.9.0.131_cuda11-archive/lib:$LD_LIBRARY_PATH"

之后保存.bashrc文件，然后在终端输入下面这个指令（我是在.bashrc文件这一层输入的，注意终端路径）

source ./.bashrc

然后再次运行python代码：

import tensorflow as tf

print(tf.test.is_gpu_available())

结果如下：

输出True，问题解决

希望可以帮到你