大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1

最新推荐文章于 2025-05-27 13:59:04 发布

原创最新推荐文章于 2025-05-27 13:59:04 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

Deep/Machine Learning 专栏收录该内容

27 篇文章

订阅专栏

本文详细介绍了深度学习项目中GPU的选择依据，对比了NVIDIA不同型号GPU的性能参数，特别是针对单精度浮点运算、CUDA处理器数量及Tensor Core的重要性进行解析。作者最终选择了RTX2070，并分享了基于CUDA10、Python3.6的深度学习环境配置心得。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

组机缘由：

最近两次实习的工作内容，都与大数据关联不大，所积累的一些本就学得不深的知识便忘得不少。
深度学习和大数据都很感兴趣，考虑到毕设是深度学习项目，故准备过几天投一些大数据的实习岗。利用周末的时间，捣鼓毕设。这样一来，做大数据，好的CPU，大的内存必不可少；做深度学习，大显存的显卡必不可少。于是决定自己装台机器。

深度学习需要什么样的GPU？

NVIDIA 部分GPU的技术参数：

在这里插入图片描述

如何选择：

CUDA10与图灵架构特性
深度学习需要用到GPU的参数有：

单精度—深度学习只需要单精度，昂贵的双精度卡适合科学计算
就单精度浮点性能而言，RTX 2070 Founders Edition为7.9TFLOPS，GTX 1080也有8.2TFLOPS。
CUDA处理器—越多越好，无需解释
比如这一代图灵显卡，RTX 2080 Ti/2080/2070分别使用不同的核心，全部都是独立型号，而RTX 2070显卡使用的是TU106-400核心。简单来说就是将RTX 2080 Ti规格剁剩一半，3组GPC单元，3×12=36组SM单元，经过计算，36×64=2304个CUDA单元。
张量处理单元（Tensor Core）—也是越多越好
Pascal架构由于没有Tensor Core，直接就是0分，而RTX 2070则为252.1TFLOPS。
所以，如果有钱，就上RTX2080Ti；我感觉RTX2070性价比高。不建议买丐版，卡吧里面，20系目前翻车不少。

最终决定的配置：

年后9代CPU一路狂飙，咬牙某东入了国行，4900Hz 1.35v，估计散片都难以挑出这样的雷。。。
在这里插入图片描述

装机

额。。。实在没精力写这一部分了。也没啥可写的

装机后的感想

真的快
电源、水冷不行，有噪音，影响强迫症患者工作

CUDA10还是CUDA9，Python3.6还是3.7？

上面已经说了，19年后组机的朋友，还是上RTX，性能肯定比GTX提升不少，不知有人做过测评没，什么时候看见的话，我把它贴出来
github很多人问为什么自己装了CUDA9.2，tensorflow却报错，说缺少9.0.so

tensorflow目前没有官方的9.1 9.2编译的成品，民间有，docker镜像也有，当然也可以自己源码编译
1.13开始使用CUDA10 cudnn7.2编译：
一直觉得硬件用新不用旧，软件不要用太新的，这次还真想倒腾下CUDA10，毕竟pytorch 1.0也有支持CUDA10的
python就3.6吧，3.7的“配套设施”估计目前还是不太全，虽然3.7会是社区以后大力发展的版本，就像之前的2.7.X系列
此文写自2019年3月初

最终的深度学习环境

~~亲测稳定，安装步骤就不写了，都写烂了~~
~~ubuntu16.04.6 【目前不太想折腾18.04】~~

向老版本说拜拜：

名称	版本
ubuntu	18.04.2
python	3.6.6
CUDA	10.0
cuDNN	7.3.1
tensorflow	1.13.1
keras	2.2.4
pytorch	1.10.1

在这里插入图片描述

TensorRT 5推理加速引擎

在这里插入图片描述
目前我不清楚这个tensorRT所做的工作，以及它的使用对于普通深度学习开发者是否是透明的，甚至是否需要单独安装，不清楚
（貌似是一种推理加速，需要导出模型在tensorRT中工作？？？）

卸载cuda

1-1 RPM/Deb 安装的:

$ sudo yum remove <package_name> # Redhat/CentOS
$ sudo dnf remove <package_name> # Fedora
$ sudo zypper remove <package_name> # OpenSUSE/SLES
$ sudo apt-get --purge remove <package_name> # Ubuntu

1-2 runfile安装的:runfile安装的: