深度学习训练中的GPU利用率和显存占用问题、num_workers&batch_size设置问题

最新推荐文章于 2024-12-27 09:25:11 发布

G_inkk

最新推荐文章于 2024-12-27 09:25:11 发布

阅读量787

点赞数

文章标签：深度学习

原文链接：https://blog.youkuaiyun.com/weixin_46515047/article/details/115230214

版权

转载
添加链接描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

G_inkk

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

训练PyTorch模型时，GPU 利用率低且训练速度慢...如何解决？

**My Coding Family**

04-16

1076

🏆本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。

深度学习pytorch训练时候为什么GPU占比很低

xiamu_CDA的博客

10-25

1688

在深度学习领域，PyTorch 是一个非常受欢迎的框架，因其灵活性和易用性而备受青睐。然而，许多用户在使用 PyTorch 进行模型训练时，经常会遇到一个令人头疼的问题：GPU 占比很低。这不仅影响了训练效率，还可能导致资源浪费。本文将深入探讨这一问题的原因，并提供解决方案。

参与评论您还未登录，请先登录后发表或查看评论

深度学习双显卡配置_更新深度学习装备:双(1080Ti)显卡装机实录

weixin_39885683的博客

01-17

5363

前言之前一直在装有一张1080Ti的服务器上跑代码，但是当数据量超过10W(图像数据集)的时候，训练时就稍微有点吃力了。速度慢是一方面，关键显存存在瓶颈，导致每次训练的batch-size不敢调的过高(batch-size与训练结果存在一定的关系)，对训练结果的影响还是比较大的。在深度学习的时代，谁掌握算力谁便领先一步，因此有必要提升自己的计算能力。这是我目前使用的服务器的配置清单，主板理论可以插...

跑深度学习查看显卡占用率？win10/win11为机器学习和 CUDA添加GPU 监控以查看实际GPU占用

blink182007的博客

04-26

9082

我刚安装了全新的RTX 4080GPU，以便在运行机器学习脚本时加快训练过程。我看不到GPU使用率超过10%，这可能意味着代码没有跑起来。对于不熟悉任务管理器视图的情况下来说，原因并不那么明显。我所做的假设是Windows任务管理器将仅显示整体GPU使用情况。经过一番思考，我意识到 GPU 内存使用率是比较之高的，所以GPU其实一定做了很多工作，然后我意识到我追求的指标是“CUDA”性能，默认情况下根本不显示，也不是任务管理器中主进程表中包含的指标。

【深度学习高效小trick】使用指定的GPU(组)搞深度学习：CUDA_VISIBLE_DEVICES || os.environ[‘CUDA_VISIBLE_DEVICES‘]=‘1‘

Thebest_jack的博客

07-07

1万+

使用指定的GPU组：CUDA_VISIBLE_DEVICES//os.environ['CUDA_VISIBLE_DEVICES']='1'---高效使用服务器的GPU！

一文搞懂：如何在深度学习中使用GPU和cuda加速

Python领域优质萌新学习笔记

12-02

8672

接下来，我们使用 x.tolist() 方法将 x 转换为Python列表并将其添加到 result 中，或者使用 x.cpu().numpy() 方法将 x 转换为CPU上的NumPy数组，然后将该数组添加到 result 中。不是的，len(Xdata)并不在GPU上。要在GPU上创建一个列表，并将张量对象添加到该列表中，可以使用PyTorch的torch.Tensor.tolist()方法或者torch.Tensor.cpu().numpy()方法先将张量转换为NumPy数组，再将数组添加到列表中。

深度学习中 GPU 和显存分析

lien0906的专栏

12-21

3万+

深度学习最吃机器，耗资源，在本文，我将来科普一下在深度学习中：何为 “资源” 不同操作都耗费什么资源如何充分的利用有限的资源如何合理选择显卡并纠正几个误区：显存和 GPU 等价，使用 GPU 主要看显存的使用？ Batch Size 越大，程序越快，而且近似成正比？显存占用越多，程序越快？

batchsize和数据量设置比例_pytorch如何设置batch-size和num_workers，避免超显存, 并提高实验速度？...

weixin_29807369的博客

12-30

2940

forvalidation_batch_sizeandtest_batch_size, you should pick the largest batch size that your hardware can handle without running out of memory and crashing.Finding this is usually a simple trial and e...

深度学习pytorch训练时候为什么GPU占比很低？

CDA_Happy的博客

12-27

1928

在深度学习领域，GPU的使用几乎是标配。然而，很多初学者在使用PyTorch进行模型训练时，经常会发现GPU的利用率并不高，这让人感到困惑。本文将深入探讨这一现象的原因，并提供一些解决方案，帮助你充分利用GPU资源，提高训练效率。

pytorch训练时gpu利用率低_pytorch多gpu并行训练

weixin_32601937的博客

02-02

2585

目录目录pytorch多gpu并行训练1.单机多卡并行训练1.1.torch.nn.DataParallel1.2.如何平衡DataParallel带来的显存使用不平衡的问题1.3.torch.nn.parallel.DistributedDataParallel2.多机多gpu训练2.1.初始化2.1.1.初始化backend2.1.2.初始化init_method2.1.2.1.使用TCP初始...

Ubuntu系统进行深度学习时查看GPU、CPU实时使用情况等

qq_44722189的博客

04-05

5151

纳入内核管理的内存不见得都在使用中，还包括过去使用过的现在可以被重复利用的内存，内核并不把这些可被重新使用的内存交还到free中去，因此在linux上free内存会越来越少，但不用为此担心。对于内存监控，在top里我们要时刻监控第五行swap交换分区的used，如果这个数值在不断的变化，说明内核在不断进行内存和swap的数据交换，这是真正的内存不够用了。，显卡是由GPU和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。第四行中使用中的内存总量（used）指的是现在系统内核控制的内存数，

深度学习训练中“num_workers”的作用

llf000000的博客

04-04

2242

在深度学习训练中，是一个常见的参数，特别是在使用数据加载器（如PyTorch的DataLoader）时。指定了用于数据加载的。这个参数对于提高数据加载的效率和加速训练过程至关重要。

Windows环境下Pytorch由Datalodaer设置num_workers大于1导致的异常错误及解决方式&重复运行

JustPeanut的博客

07-27

9811

1.问题分析 torch.utils.data.DataLoader(image_datasets[x], batch_size=batch_size, shuffle=True, num_workers=NUM_WORKERS, pin_memory=True) 在Pytorch中

Win系统的Pytorch中 DataLoader 设置参数 num_workers 报错问题

知识搬运者

04-28

1414

在Windows系统中需要设置 num_workers 为 0，在Linux系统中则不需要担心。

dataloader中的num_workers报错问题

qq_41219996的博客

01-03

814

我的dataset中有mosaic图像增强，分析可能由于num_works优化了这一段代码使得图像读取出现错误。

跑yolov4模型时，显存明明足够却报错说超出显存

WhiteGive__的博客

07-08

1880

原本num_workers=4改成num_workers=2后可以跑。这个问题是因为理论上windows只能单线程nun_workers应该=0，但有的时候也能多线程，num_workers是玄学问题？在解决任务管理器gpu项目中没有cuda这个选项时，重启两三遍之后num_workers=4也可以跑了 ...

深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））

luemeon的博客

11-24

1万+

深度强化学习DRL现存问题和训练指南（D3QN（Dueling Double DQN））

windows num_workers

haojie

09-06

4232

分配了这个电脑，跑了10个程序9个因为cpu利用率太高，声音太大导致跑不了，让我一度以为是电脑散热坏了还有cpu不行，其实不是的就是num_workers的设置问题，设置为1，cpu那个线程压力太大，所以设置为大点！！还有一个问题 RuntimeError: CUDA error: an illegal memory access was encountered 这个错误解决这样来。用了torch.cuda.set_device(0)后把那些.to(device)都改成.c.

pytorch DataLoader num_workers 出现的问题

最新发布

04-03

### 多GPU显存占用高但利用率低的原因在深度学习任务中，当观察到多个GPU的显存占用较高而利用率较低时，通常涉及以下几个方面的原因： #### 1. **数据加载速度不足** 如果`Dataloader`中的`num_workers`设置过低，可能导致CPU的数据预处理能力无法满足GPU的需求。这使得GPU大部分时间处于等待状态，从而导致利用率低下[^5]。 #### 2. **内存访问模式不优** 显卡性能受内存访问模式影响显著。非连续的内存访问会增加延迟并降低带宽利用效率。此外，频繁访问全局内存而非共享内存也会加剧这一问题[^3]。 #### 3. **批大小（Batch Size）不合适** 较小的批大小虽然能减少显存消耗，但也可能使计算资源得不到充分利用。这是因为现代GPU架构设计倾向于大规模并行运算，在小批量情况下难以发挥其优势[^1]。 #### 4. **模型复杂度与硬件匹配不当** 某些模型结构可能存在大量轻量级操作或控制流分支，这些特性不适合高度并行化的GPU执行环境，进而造成资源浪费[^4]。 ### 解决方案针对上述原因，可采取如下措施提升多GPU场景下的整体效能： #### 调整数据管道配置合理设定`Dataloader`参数，特别是将`num_workers`调整至接近于系统可用CPU核心数量的一半左右，并启用`pin_memory=True`选项以加速主机到设备间的数据传递过程[^2]。 #### 优化存储子系统交互方式重构代码逻辑以便更多采用连续区块式的访存策略；对于重复使用的中间结果考虑缓存在本地快速暂存区(shared memory)内而不是每次都重新从远程较慢位置(global memory)获取。 #### 修改训练超参组合尝试增大batch size直至达到合理的平衡点——既能有效填充所有SM单元又能维持足够的剩余空间用于其他必要开销如梯度累积等。 #### 审视网络定义细节检查是否存在过多串行依赖关系的操作节点以及不必要的条件判断语句，尽可能简化拓扑连接形式使之更加适合当前所选用的具体型号规格之特点。通过综合运用以上几种手段往往能够显著改善实际运行效果。 ```python import torch from torch.utils.data import DataLoader, Dataset class CustomDataset(Dataset): def __init__(self, data): self.data = data def __len__(self): return len(self.data) def __getitem__(self, idx): sample = self.data[idx] # Add any necessary preprocessing here return sample dataset = CustomDataset(your_data) # Optimize dataloader settings data_loader = DataLoader( dataset, batch_size=your_optimal_batch_size, shuffle=True, num_workers=min(16, os.cpu_count()), # Adjust based on your system's CPU core count pin_memory=True # Enable pinned (page-locked) memory to speed up host-to-device transfers ) ```