配置云服务器GPU做keras训练

最新推荐文章于 2024-06-01 22:11:41 发布

原创最新推荐文章于 2024-06-01 22:11:41 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

python 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍如何在阿里云上选择合适的GPU云服务器，并完成CUDA、cuDNN等深度学习环境的搭建，包括驱动安装、远程控制软件配置、Python环境设置及常见错误处理。

目录

申请GPU加速云服务器

安装64位补丁包

下载GPU驱动，CUDA并安装

下载Nvidia驱动

cuda10.1 update2 (426)实际下载链接：

cuda10.1 update1 (425.25)实际下载链接：

cuda10.0 (411.31)实际下载地址:

下载cudnn（加速包）

安装远程控制软件

安装python环境

1.安装python3.6.8

2.创建虚环境

3.安装相关库

keras训练参数设置

申请GPU加速云服务器

测试了华为云的G1，用的Telsa M60-1Q显卡，预装了Nvidia驱动，但版本很旧，好像是369.71，对应的CUDA，tensorflow版本太低了，CUDA10安装，提示找不到兼容硬件。

然后选择了阿里云的vgn5i，用的Telsa P4显卡，可能是虚拟GPU的原因，CUDA10.1能安装，但是没办法启用GPU运算，错误信息是驱动跟CUDA版本对不上。

最后选择gn5i，用的Telsa P4显卡，正常安装CUDA。

按需付费模式

安装64位补丁包

https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads

下载GPU驱动，CUDA并安装

查看云服务器具体配置，下载对应的驱动和CUDA工具包

本次使用：CUDA 10.1 update2

下载Nvidia驱动

https://www.nvidia.com/Download/index.aspx?lang=en-us

说明：本次配置未使用，直接用cuda安装的显卡驱动程序

查看GPU信息：

cd C:\Program Files\NVIDIA Corporation\NVSMI

执行 nvidia-smi

驱动安装检查版本426.00，CUDA10.1，如下图：

下载cuda

本次使用 cuda10.1 update2

版本选择链接：

https://developer.nvidia.com/cuda-10.1-download-archive-update2?target_os=Windows&target_arch=x86_64&target_version=Server2016&target_type=exelocal

cuda10.1 update2 (426)实际下载链接：

https://developer.download.nvidia.cn/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_426.00_win10.exe

cuda10.1 update1 (425.25)实际下载链接：

https://developer.download.nvidia.cn/compute/cuda/10.1/secure/Prod/local_installers/cuda_10.1.168_425.25_win10.exe?gazno7X2UvxOXezqf1ug4THKW4jk3tZRGWCpu9eUQvX6V4Q72kFVseXRlW2CRfoawkI4sLvQLaF3YZ0VI9hHnX00BU9CrAyVPQnw8O1IXDpjpHPvOkrQ_sotHFhqBWppAKP11TwjHH5bvAFvPCzBDOP_FBRlRhq_5d-1egSDrFaJeG2mlAZpnKPTQWI

cuda10.0 (411.31)实际下载地址:

https://developer.download.nvidia.cn/compute/cuda/10.0/secure/Prod/local_installers/cuda_10.0.130_411.31_win10.exe?Ijc5Vlv3MyHnHJPSeD7v5lzAE81HwHstlZsnaLBnnpzwm3ppQSbtTS28ilO2jCFMWFjHwFAMvg4RZByH-TGRQztaNom3kyJazZFB54eRXNKpk8rSrMBwxQ1GNDfvO4lW4kcBbN8Y9e26PKXInn7Fx4FffSj-7I3Z9IPRlC2H7XZxG-FHj21_f3Ch5SY

下载cudnn（加速包）

选择for cuda10.1版本，for Windows 10版本

https://developer.nvidia.com/rdp/cudnn-download

解压缩后，将所有目录复制到CUDA根目录即可

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1

测试cuda

cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite

执行 bandwidthTest

检查cuda是否安装成功

安装远程控制软件

使用mstsc，Nvidia控制面板打不开，可能是导致tensorflow无法调用GPU的原因。

安装VNC Server（不知道是不是必须的，后面用远程桌面也能正常，也有可能是因为用vnc登录过）

客户端安装VNC Viewer

安装python环境

1.安装python3.6.8

2.创建虚环境

pip install virtualenv

virtualenv testenv

3.安装相关库

pip install tensorflow-gpu==2.1.0 -i https://mirrors.aliyun.com/pypi/simple/

pip install keras==2.3.1 -i https://mirrors.aliyun.com/pypi/simple/

pip install pillow -i https://mirrors.aliyun.com/pypi/simple/

pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple/

pip install sklearn -i https://mirrors.aliyun.com/pypi/simple/

pip install jupyter -i https://mirrors.aliyun.com/pypi/simple/

4.测试GPU

python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"

python -c "from tensorflow.python.client import device_lib;print(device_lib.list_local_devices())"

错误处理

Could not load dynamic library 'cudart64_100.dll'; dlerror: cudart64_100.dll not found

将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin\cudart64_101.dll复制一份，改为cudart64_100.dll

keras训练参数设置

batch_size=8 3s-4s/epoch

batch_size=16 2s/epoch

batch_size=64 1s/epoch

batch_size=128 1s/epoch

batch_size=256 1s/epoch

每个训练集要反复训练多次，每次随机训练集与验证集。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。