GPU安装

我用的服务器是centos版本的通过free -h版本查看配置如下:

[root@GPUNode wangrui]# free -h
              total        used        free      shared  buff/cache   available
Mem:            62G        1.0G         59G         17M        1.6G         60G
Swap:           18G          0B         18G

查看显卡信息:

[root@localhost lib]# lspci | grep -i vga
03:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 41)
d8:00.0 VGA compatible controller: NVIDIA Corporation Device 1e07 (rev a1)

我是在这个服务器里面挂载的GPU,所以需要进行环境的配置。

 nvidia-smi#这个命令主要是进行GPU是否安装成功验证的

首先先安装gcc最新版本。(一定要是4.8.5版本,高版本的话在sh *.run文件的时候会显示报错)

yum -y install gcc-c++

配置elrepo源。

sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
sudo rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm

然后执行以下命令。

sudo yum install nvidia-detect
yum install kernel-devel epel-release dkms

通过nvidia-detect查看GPU当前版本。可以看出当前版本是430.26

nvidia-detect -v

Probing for supported NVIDIA devices...
[10de:1e04] NVIDIA Corporation Device 1e04
This device requires the current 430.26 NVIDIA driver kmod-nvidia
[1a03:2000] ASPEED Technology, Inc. ASPEED Graphics Family

然后到https://www.geforce.cn/drivers官网中搜索相对应版本的驱动。填写信息如下:

参数

然后点击开始搜索,然后找到430.26版本的进行下载。

wget -r -np -nd https://us.download.nvidia.com/XFree86/Linux-x86_64/430.26/NVIDIA-Linux-x86_64-430.26.run
chmod +x NVIDIA-Linux-x86_64-430.26.run
sh NVIDIA-Linux-x86_64-430.26.run 
lsmod | grep nouveau

如果在sh ***.run脚本的时候报错为please stop x server则应该先进行以下操作,关闭x server。

systemctl stop gdm.service
systemctl start gdm.service

nouveau和GPU会出现冲突会使得sh NVIDIA**.run的时候出现报错,然后进行如下操作。

vim /etc/default/grub

在文件中加入:

GRUB_CMDLINE_LINUX末尾加入nouveau.modeset=0 

然后执行:

grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg
sh NVIDIA-Linux-x86_64-430.26.run

然后进入图形界面,按照指示进行操作即可。

nvidia-smi
显示如下:
Thu Jun 13 09:45:13 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 430.26       Driver Version: 430.26       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 208...  Off  | 00000000:D8:00.0 Off |                  N/A |
| 34%   42C    P0     1W / 250W |      0MiB / 11019MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

 

### TensorFlow 2 GPU 安装指南 在安装 TensorFlow 2 的 GPU 支持时,需要确保系统环境正确配置。以下是一个完整的安装指南: #### 1. 系统要求 确保计算机满足以下条件: - 操作系统:Windows、Linux 或 macOS。 - NVIDIA 显卡驱动程序版本需与 CUDA 兼容。例如,CUDA 10.1 需要显卡驱动版本至少为 418.x[^4]。 #### 2. 安装 Anaconda3 使用 Anaconda3 创建和管理 Python 环境,能够更方便地安装和配置依赖项。下载并安装最新版本的 Anaconda3(推荐 Python 3.7 或更高版本)[^1]。 #### 3. 创建新的 Conda 环境 打开 Anaconda Prompt 并创建一个新的 Conda 环境: ```bash conda create -n tensorflow_env python=3.7 ``` 激活该环境: ```bash conda activate tensorflow_env ``` #### 4. 安装 CUDA 和 cuDNN TensorFlow 2 对 CUDA 和 cuDNN 版本有严格的要求。例如,TensorFlow 2.1 需要 CUDA 10.1 和 cuDNN 7.6[^3]。可以通过以下步骤安装: - 下载 CUDA Toolkit 10.1 从 NVIDIA 官方网站。 - 下载 cuDNN 7.6 并解压到 CUDA 安装目录。 - 配置环境变量以包含 CUDA 和 cuDNN 的路径。 #### 5. 安装 TensorFlow GPU 版本 在激活的环境中,使用 pip 命令安装 TensorFlow GPU 版本。为了加速下载,可以使用清华镜像源: ```bash pip install -U tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple ``` 此命令会自动安装 TensorFlow 的 GPU 支持版本[^1]。 #### 6. 验证安装 验证 TensorFlow 是否成功安装以及是否支持 GPU: ```python import tensorflow as tf print("TensorFlow version:", tf.__version__) print("GPU available:", tf.test.is_gpu_available()) ``` 如果输出显示 GPU 可用,则说明安装成功[^2]。 #### 7. 常见错误及解决方法 如果在安装或运行过程中遇到问题,可以参考以下常见错误及其解决方案: - **错误:CUDA not found** 确保 CUDA 和 cuDNN 已正确安装,并检查环境变量配置是否正确[^3]。 - **错误:ModuleNotFoundError: No module named 'tensorflow'** 确保 Conda 环境已激活,并重新运行安装命令[^4]。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值