tensorflow 多GPU并行训练遇到的问题

最新推荐文章于 2024-04-28 17:22:43 发布

原创最新推荐文章于 2024-04-28 17:22:43 发布 · 849 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习

tensorflow 专栏收录该内容

1 篇文章

订阅专栏

本文探讨了在使用TensorFlow进行多GPU部署时，显存分配不均的问题及原因。os.environ设置GPU可见设备后，代码内部将其转换为0和1，导致tf.device无法直接识别实际的GPU编号。通过调整配置参数allow_soft_placement，可以实现自动显存分配，避免报错。文章提供了正确的代码示例，帮助读者理解并解决类似问题。

部署运行你感兴趣的模型镜像

os.environ['CUDA_VISIBLE_DEVICES'] = "5,6" 
##以下，将graph部署到两个GPU的时候i分别是5和6
with tf.device('/gpu:%d' % i):
            with tf.name_scope('tower_%d' % i) as scope:

在训练的时候发现卡5和卡6占的显存相差巨大。
GPU占用情况

原因

实际上os.environ那句设置好了使用的卡号之后，在代码里已经自动转为0,1了，所以后面tf.device找不到卡5和卡6；
之所以没有报错是以下语句会在找不到设备的时候自动分配显存。
with tf.Session(config=tf.ConfigProto(allow_soft_placement=True)) as sess:
如果设置成了False，还按照上面的代码训练就会报错了。

解决办法

##以下i分别为0和1.
with tf.device('/gpu:%d' % i):
            with tf.name_scope('tower_%d' % i) as scope:

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhangchun3211

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

关于tensorflow中os.environ环境变量的设置

mrzrx的博客

12-27

5479

本帖旨在记录自己平时遇到的各种关于os.environ的设置，不定期更新 &amp;amp;amp;nbsp; 0.使用方法：设置环境变量，自然是要放在代码最前面的（但是要先导入os包）。例如下面： import os os.environ[&amp;amp;quot;CUDA_VISIBLE_DEVICES&amp;amp;quot;] = &amp;amp;quot;2&amp;amp;quot; &a

torch.nn.DataParalle多GPU运行时第一个epoch卡住问题

weixin_46786533的博客

09-03

2159

使用nvidia-smi查看GPU状态时，会有一个GPU一直100%，另一个GPU0%一直保持不变。

参与评论您还未登录，请先登录后发表或查看评论

基于tensorflow的深度学习MultiGPU训练实战

热门推荐

lqfarmer的博客

04-21

2万+

进行深度学习模型训练的时候，一般使用GPU来进行加速，当训练样本只有百万级别的时候，单卡GPU通常就能满足我们的需求，但是当训练样本量达到上千万，上亿级别之后，单卡训练耗时很长，这个时候通常需要采用多机多卡加速。深度学习多卡训练常见有两种方式，一种是数据并行化（data parallelism），另外一种是模型并行化（model parallelism）。数据并行化：每个GPU上面跑一

Tensorflow数据并行多GPU训练

牧野的博客

07-28

2939

一. 数据处理将数据写成TFRecord二进制文件格式（参考 https://s0www0tensorflow0org.icopy.site/tutorials/load_data/tfrecord）。写一个TFRecord文件大概有3个流程： 1. 把数据转换成TFRecord规定的可接受的三种类型之一，分别是tf.train.BytesList(对应string和byte)，tf.train.FloatList(对应float32和float64)和tf.train.Int64List(对

针对Win10 Tensorflow-2.x 训练线程冻结(假死、卡住、几个epoch后、中途停滞、CPU占用0%) 等问题的排查总结

weixin_42122722的博客

12-21

6864

针对Win10 Tensorflow-2.4 训练线程冻结(假死、卡住、中途停滞、CPU占用0%) 等问题的排查总结 0.前言（事情很复杂）事件背景如下：30系显卡出来后，需要针对8.6算力对TensorFlow2.x进行重新编译，才可顺畅使用，若非重新编译，每次运行都会进行一次预编译，及其浪费时间。一般的，大家会选择一下两种办法： 1 等官方编译发行到:[PyPI](https://pypi.org/project/tensorflow/#history) ......

解决Ubuntu18中的pycharm不能调用tensorflow-gpu的问题

12-16

在Ubuntu 18.04系统中，PyCharm 是一个流行的Python集成开发环境，而TensorFlow-GPU是Google开发的深度学习库TensorFlow的GPU版本，它利用GPU的并行计算能力加速训练过程。当你在命令行环境中能正常导入和使用...

解决Tensorflow占用GPU显存问题

12-20

在使用TensorFlow进行深度学习模型训练时，遇到GPU显存管理问题是非常常见的。尤其是在将PyTorch模型转换为TensorFlow模型后，可能会发现TensorFlow会默认占用所有可用的GPU显存，即使模型本身并未完全利用这些资源...

关于Theano和Tensorflow多GPU使用问题

09-16

在使用TensorFlow进行训练时，特别是在数据集较大或者模型复杂度较高的情况下，可能会遇到内存不足的问题，例如`ResourceExhaustedError: OOM when allocating tensor with`这类错误。 **解决方案**： 1. **调整...

使用Tensorflow-GPU禁用GPU设置(CPU与GPU速度对比)

09-16

通常，GPU（图形处理单元）设计用于并行处理大量数据，这对于执行深度学习模型中的矩阵运算非常有效，因此在训练大规模神经网络时，GPU通常比CPU快得多。以GTX 1066为例，一个常见的中高端游戏显卡，其并行计算能力...

tensorflow_gpu-1.7.0-cp36-cp36m-win_amd64.rar

06-12

这种方式避免了编译源代码的过程，节省了时间，特别是在Windows系统上，编译可能会遇到更多的问题。 **环境配置** 在安装TensorFlow GPU版前，确保你的系统满足以下条件： 1. 安装了Python 3.6：你可以通过`python...

为什么要使用多GPU并行训练，单卡和多卡训练，bs和lr的关系

qq_15821487的博客

02-10

2266

众所周知，learning rate的设置应和batch_size的设置成正比，即所谓的线性缩放原则（linear scaling rule）。简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。1.模型并行方式：如果模型特别大，GPU显存不够，无法将一个显存放在GPU上，需要把网络的不同模块放在不同GPU上，这样可以训练比较大的网络。2.数据并行方式：将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播。

深度学习分布式训练相关介绍 - Part 1 多GPU训练

like_study_cat的博客

12-18

1053

本篇文章主要是对深度学习中运用多GPU进行训练的一些基本的知识点进行的一个梳理文章中的内容都是经过认真地分析，并且尽量做到有所考证抛砖引玉，希望可以给大家有更多的启发，并能有所收获介绍大多数时候，梯度下降算法的训练需要较大的Batch Size才能获得良好性能。而当我们选择比较大型的网络时候，由于GPU资源有限，我们往往要减少样本数据的Batch Size。当GPU无法存储足够的训练样本...

多GPU并行训练和单GPU训练网络精度对比

weixin_44523062的博客

11-07

2474

文章目录实验配置1 单2080s 86.4 / 94.42 单2080 86.0 / 94.53 利用torch的parallel两张并行 85.0 /93.7 实验配置一张2080s, 一张2080 1 单2080s 86.4 / 94.4 re-ranking 2 单2080 86.0 / 94.5 3 利用torch的parallel两张并行 85.0 /93.7 ...

pytorch使用多个GPU训练及单个GPU训练的相关问题

qq_44289607的博客

03-08

7291

1 pytorch使用多个GPU同时训练在pytorch上使用多个GPU(在同一台设备上，并非分布式）进行训练是件非常容易的事情，只要在源代码中添加（修改）两行代码即可。把模型放在GPU上： device = torch.device("cuda:0") model.to(device) 将tensor复制到GPU上 mytensor = my_tensor.to(device) 注意：调用my_tensor.to(device)会在GPU上返回一个新的my_tensor副本，而不是重写

A100单机多卡大模型训练踩坑记录（CUDA环境、多GPU卡住且显存100%）

木尧大兄弟

04-28

1万+

大模型A100单机多卡训练踩坑记录

pytorch多卡分布式训练卡住的问题

tensorflow 多GPU并行训练 遇到的问题

原因

解决办法

tensorflow 多GPU并行训练遇到的问题