目录
cuda10.1 update1 (425.25)实际下载链接:
申请GPU加速云服务器
测试了华为云的G1,用的Telsa M60-1Q显卡,预装了Nvidia驱动,但版本很旧,好像是369.71,对应的CUDA,tensorflow版本太低了,CUDA10安装,提示找不到兼容硬件。
然后选择了阿里云的vgn5i,用的Telsa P4显卡,可能是虚拟GPU的原因,CUDA10.1能安装,但是没办法启用GPU运算,错误信息是驱动跟CUDA版本对不上。
最后选择gn5i,用的Telsa P4显卡,正常安装CUDA。
按需付费模式
安装64位补丁包
https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads
下载GPU驱动,CUDA并安装
查看云服务器具体配置,下载对应的驱动和CUDA工具包
本次使用:CUDA 10.1 update2
下载Nvidia驱动
https://www.nvidia.com/Download/index.aspx?lang=en-us
说明:本次配置未使用,直接用cuda安装的显卡驱动程序
查看GPU信息:
cd C:\Program Files\NVIDIA Corporation\NVSMI
执行 nvidia-smi
驱动安装检查版本426.00,CUDA10.1,如下图:

下载cuda
本次使用 cuda10.1 update2
版本选择链接:
cuda10.1 update2 (426)实际下载链接:
cuda10.1 update1 (425.25)实际下载链接:
cuda10.0 (411.31)实际下载地址:
下载cudnn(加速包)
选择for cuda10.1版本,for Windows 10版本
https://developer.nvidia.com/rdp/cudnn-download
解压缩后,将所有目录复制到CUDA根目录即可
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1
测试cuda
cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite
执行 bandwidthTest
检查cuda是否安装成功
安装远程控制软件
使用mstsc,Nvidia控制面板打不开,可能是导致tensorflow无法调用GPU的原因。
安装VNC Server(不知道是不是必须的,后面用远程桌面也能正常,也有可能是因为用vnc登录过)
客户端安装VNC Viewer
安装python环境
1.安装python3.6.8
2.创建虚环境
pip install virtualenv
virtualenv testenv
3.安装相关库
pip install tensorflow-gpu==2.1.0 -i https://mirrors.aliyun.com/pypi/simple/
pip install keras==2.3.1 -i https://mirrors.aliyun.com/pypi/simple/
pip install pillow -i https://mirrors.aliyun.com/pypi/simple/
pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple/
pip install sklearn -i https://mirrors.aliyun.com/pypi/simple/
pip install jupyter -i https://mirrors.aliyun.com/pypi/simple/
4.测试GPU
python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
python -c "from tensorflow.python.client import device_lib;print(device_lib.list_local_devices())"
错误处理
Could not load dynamic library 'cudart64_100.dll'; dlerror: cudart64_100.dll not found
将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin\cudart64_101.dll复制一份,改为cudart64_100.dll
keras训练参数设置
batch_size=8 3s-4s/epoch
batch_size=16 2s/epoch
batch_size=64 1s/epoch
batch_size=128 1s/epoch
batch_size=256 1s/epoch
每个训练集要反复训练多次,每次随机训练集与验证集。
本文详细介绍如何在阿里云上选择合适的GPU云服务器,并完成CUDA、cuDNN等深度学习环境的搭建,包括驱动安装、远程控制软件配置、Python环境设置及常见错误处理。
1936

被折叠的 条评论
为什么被折叠?



