tensorflow GPU显存占满而Util为0的问题

最新推荐文章于 2025-10-14 17:11:33 发布

原创最新推荐文章于 2025-10-14 17:11:33 发布 · 1.6w 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #gpu #memory

201809 专栏收录该内容

1 篇文章

订阅专栏

本文提供了两个关于TensorFlow的常见问题解决方案。一是如何解决CPU指令集不匹配的问题，通过设置环境变量TF_CPP_MIN_LOG_LEVEL来降低警告级别。二是解决GPU显存占满但Util为0的问题，通过设置CUDA_VISIBLE_DEVICES环境变量指定使用特定GPU，避免其他GPU的显存占用。

问题1：Your CPU supports instructions that this TensorFlow binary was not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA

解决：代码中添加

import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

问题2：Tensorflow GPU显存占满，而Util为0

解决：代码中添加

import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "8" //这里指定GPU8

代码中同时指定了GPU，避免了其他GPU的显存占用。

参考文章：https://blog.youkuaiyun.com/qq_24306353/article/details/79952266

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ccuy

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Win11极速安装Tensorflow-gpu+CUDA+cudnn(含视频)

weixin_46713695的博客

12-16

1万+

Win11极速安装Tensorflow-gpu+CUDA+cudnn(含视频链接)

keras在TensorFlow-GPU和CPU中来回切换，以及GPU显存不足的缓解方式（切换原因：GPU显存实在不足）

weixin_58420301的博客

03-22

4243

TensorFlow中GPU显存不足的问题与CPU切换为CPU的问题

4 条评论您还未登录，请先登录后发表或查看评论

TensorFlow学习- GPU显存占满而利用率（util）很低原因&提高方法

m0_38064529的博客

11-20

2万+

2080的显卡，跑YOLOv3，显存已经满了，显卡利用率却只有7% 百度了一圈，看到几篇比较靠谱的博客，直接贴链接参考1 TensorFlow如何提高GPU训练效率和利用率 ...

python3中自定义wsgi函数，make_server函数报错问题

weixin_30767835的博客

11-21

634

#coding:utf-8from wsgiref.simple_server import make_serverdef RunServer(environ, start_response): start_response('200 OK', [('Content-Type', 'text/html')]) return '<h1>Hello, web!</...

AMD显卡GPU占用率100%？别慌，这是排查与解决全攻略

最新发布

cdjiyuntx的博客

10-14

4984

AMD显卡GPU占用率100%可能是正常现象也可能是异常情况。在运行大型3D游戏等高负载任务时，满占用是显卡全力工作的表现；但在低负载场景下持续高占用则需警惕。本文提供了系统性排查方案：首先区分正常与异常情况；其次检查后台进程、更新驱动、调整系统设置；然后优化游戏内图形设置和帧率；最后深入检查温度、CPU瓶颈和电源供应。通过这套方法，用户可以准确判断问题根源，确保显卡性能得到最佳发挥。

plex自动跳到登入_如何将同步的Plex视频从一台设备共享到另一台设备

09-13

1606

plex自动跳到登入The Plex mobile apps for iOS and Android have a really neat but frequently overlooked feature: you can turn your mobile device into a tiny media server to share synced content with nearby de...

【解决方案】tensorflow显存占比高但是GPU利用率低的问题

十二月未央未眠

04-09

1万+

背景在跑代码的时候，运行cmd，输入nvidia-smi，发现这样一个问题，显存的占比高特别低但是GPU利用率特别低。解决方法这个跟自己写的代码有关系，我的主要问题在于，读取磁盘中数据的时候，是依靠CPU在读取数据（此时磁盘读写会非常高，打开任务管理器就知道），同时，tensorflow在运行模型训练的时候，会从内存中读取数据，GPU训练会比较快，而CPU一直在从磁盘中读数据到内存中，而跟...

GPU Memory Usage占满而GPU-Util却为0的调试

weixin_33985679的博客

07-06

3682

最近使用github上的一个开源项目训练基于CNN的翻译模型，使用THEANO_FLAGS='floatX=float32,device=gpu2,lib.cnmem=1' python run_nnet.py -w data/exp1/，运行时报错，打印"The image and the kernel must have the same type.inputs(float64), kern...

检测tensorflow是否使用gpu进行计算的方式

09-18

如果在运行TensorFlow代码后，`nvidia-smi`显示GPU的显存占用增加或者GPU的利用率上升，那就说明TensorFlow正在使用GPU进行计算。为了确保TensorFlow能正确使用GPU，还需要在系统中正确安装和配置CUDA和cuDNN库，...

TensorFlow 显存占用率高 GPU利用率低

ProLayman的博客

07-18

1万+

nvidia-smi指令命令位置：所以Path中添加环境变量： C:\Program Files\NVIDIA Corporation\NVSMI 试验一哈：要注意的点： Driver Version和CUDA Version不是一回事 CUDA Version实际是环境变量中Path配置的，如果一台机器同时装了多个CUDA，那么这里的CUDA Version显示的是Path中靠前的C...

tensorflow使用GPU训练

ftfy123的博客

03-04

1万+

1. 查看gpu的使用详情：（1）查看gpu使用情况 nvidia-smi.exe # windows上 nvidia-smi -l #linux服务器上 # 显示的结果中 Volatile GPU-Util：浮动的GPU利用率；（2）linux上查看进程占用gpu的情况： ##实用技巧： ##如果你在linux终端运行深度学习python脚本文件，运行中发现占用多个GPU和内存...

【debug】tensorflow训练GPU利用率为0

cxxx17的博客

01-20

3532

在跑一个基于tensorflow的代码时，发现指定了GPU后，只占了很小的显存，且GPU利用率为0。经核查发现是tensorflow-gpu版本和cuda版本没对上,(也没报错。。gucci) tensorflow-gpu版本1.15.0 原cuda:10.1 更改为10.0后问题解决。 ...

在训练中，使用nvidia-smi观察gpu使用情况，发现，显存占用过多。但gpu利用率一直为0.

Labiod的博客

04-03

3954

解决方法：在不适用cond虚拟环境的情况下，重新安装tensorflow-gpu和keras。卸载之前的版本： conda uninstall tensorflow-gpu conda uninstall keras 安装新的版本：先执行： conda install tensorflow-gpu 后执行： pip install keras 后一个语句使用p...

tensorflow 多GPU训练时， Memory-Usage占满而GPU-Util为0%的问题

cx415462822的专栏

12-16

5066

由于刚开始接触多gup训练，按照网上的帖子改写代码后，发现训练程序依旧很慢（用的是4gpu），用nvidia-smi检查GPU运行情况，发现Memory-Usage占满而GPU-Util为0%。上网一搜还真有不少人遇到同样的问题，还以为是自己哪里没设置好。画了一天左右时间在网上找解决方法，网上的方法都没用。后来用watch nvidia-smi命令，实时...

【DL】Memory-Usage占满而GPU-Util为0%的问题

...

03-20

847

Pytorch已经可以自动回收我们不用的显存，类似于python的引用机制，当某一内存内的数据不再有任何变量引用时，这部分的内存便会被释放。但有一点需要注意，当我们有一部分显存不再使用的时候，这部分释放的显存通过Nvidia-smi命令是看不到的，举个例子： device = torch.device('cuda:0') # 定义两个tensor dummy_tensor_4 = torch.randn(120, 3, 512, 512).float().to(device) # 120*3*512*51

环境配置（近期实测）——Ubuntu16.04+CUDA9.0+tensorflow-gpu填坑记

weixin_34262482的博客

10-09

851

近几年深度学习在物体检测方面出现了许多基于不同框架的网络模型，不同模型需要不同的版本的Python、TensorFlow、Keras、CUDA、cuDNN以及操作系统。不得不说，要把经典物体检测网络的源码都跑通，单配置环境就要浪费很多时间，因为目前兼容这些经典网络的框架和环境还很少。新版的TensorFlow在models的objection-detection模块中包含了fast-rcnn、rf...

GPU显存占满利用率GPU-util为0

热门推荐

啷个哩个啷

09-10

4万+

1. ????问题描述运行程序的时候提醒显存不够，查看了一下nvidia-smi，确实显存占满了，但是GPU-Util，gpu利用率有三个都是0，只有一个是56% 搜索后发现这个现象的原因还比较普遍，但是似乎没有几个可以很好解决这个问题，参考：脚本之家的文章：Pytorch GPU内存占用很高,但是利用率很低如何解决，转载自优快云博客：Pytorch GPU内存占用很高，但是利用率很低， ✅总结自优快云博客：深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且

（原创、不是重复文章）GPU Memory Usage占满而GPU-Util却为0的情况

weixin_57234928的博客

03-17

4169

一句话：在你的一个batch的数据都没加载进GPU内存前，你的GPU可能已经被占用了好几个G了，这几个G的数据就是你的model本身所需要的内存。在你代码启动的那一刻，pytorch开始加载model，你的模型的复杂程度导致所需要的参数数量不一致，而这些参数所占用的内存不是用的系统内存，而是用你的GPU内存（即显存）。先不讲其它文章提到的batch_size 、num_workers等等参数的调整。如果你的model够复杂，可能根本等不到加载到batch的那一刻内存就已经所剩无几了。所以为什么GP.

显存未占满，但volatile gpu-util一直为100%

07-24

<think>首先，用户的问题是关于GPU显存未占满但GPU利用率达到100%的情况。用户提到这是在运行深度学习或GPU加速任务时遇到的性能瓶颈或资源调度问题。我需要根据提供的引用内容来回答这个问题。回顾引用内容： - 引用[1]：讨论了GPU显存占满但利用率低的问题，原因可能包括数据加载、模型设计等。 - 引用[2]：具体提到使用图神经网络时，显存占满但利用率低（只有2%），速度慢。 - 引用[3]：解释了nvidia-smi显示无进程但GPU占用率100%的问题，原因是Ctrl+Z挂起程序而非终止，导致进程占用资源。 - 引用[4]：针对多卡训练时GPU利用率100%阻塞的问题，建议设置环境变量和改用gloo。用户的问题焦点是“显存未占满但GPU利用率100%”，这与引用中描述的情况不完全一致。用户说“显存未满但GPU利用率100%”，而引用中有显存占满但利用率低的情况。我需要基于引用内容推断可能的原因。从引用中提取相关信息： - 引用[3]直接提到“GPU占用率100%”，原因是挂起的程序（Ctrl+Z导致）。 - 引用[4]提到多卡训练时GPU利用率100%阻塞，建议设置NCCL环境变量。用户意图是排查GPU显存未占满但GPU利用率却持续100%的问题。可能的原因包括： 1. **挂起的进程**：如引用[3]所述，如果用户使用了Ctrl+Z而不是Ctrl+C终止程序，进程可能仍在后台运行，占用GPU资源。 2. **资源调度问题**：在深度学习任务中，如果任务计算密集但数据加载慢，可能导致GPU利用率高但显存未满。 3. **多GPU训练问题**：如引用[4]，在多卡环境中，通信问题可能导致GPU利用率100%但效率低下。 4. **其他原因**：如模型设计、数据预处理瓶颈等。我的回答需要结构清晰，逐步解决问题。系统指令要求使用中文回答，并生成相关问题。同时，在回答中引用的段落末尾自然地添加引用标识。回答结构： 1. **理解问题**：简述用户描述的现象。 2. **原因分析**：基于引用内容，列出可能的原因。 3. **解决方法**：针对每个原因，提供解决方案。 4. **预防措施**：给出建议以避免类似问题。 5. **相关问题**：生成相关问题。确保使用LaTeX格式：行内数学表达式用$...$，独立公式用$$...$$。现在，构建回答： - **开头**：确认问题，并概述原因。 - **原因分析**： - 引用[3]：挂起的进程导致GPU占用率100%，但nvidia-smi可能不显示进程。 - 引用[4]：多卡训练中的通信问题。 - 其他可能：如数据加载瓶颈、模型计算密集但显存需求不高。 - **解决方法**： - 检查并终止挂起进程：使用命令如`pgrep -u user-name | sudo xargs kill -9` [^3]。 - 针对多卡训练：设置环境变量如`export NCCL_P2P_DISABLE="1"` 和 `export NCCL_IB_DISABLE="1"`，或改用gloo作为后端 [^4]。 - 优化数据加载：确保数据预处理高效，避免CPU瓶颈。 - 监控工具：使用`nvidia-smi`、`top`等工具诊断。 - **预防措施**：避免使用Ctrl+Z终止程序；优化代码；使用适当的分布式训练设置。 - **相关问题**：生成3-4个相关问题，如： 1. 如何监控GPU利用率和显存使用情况？ 2. 在深度学习训练中，如何优化数据加载以避免瓶颈？ 3. 多GPU训练时常见的性能问题及解决方法？引用标识：在引用内容末尾添加[^n]，例如在提到引用[3]时添加[^3]。最后，确保回答真实可靠，基于提供的引用。</think>### GPU显存未满但GPU利用率100%的原因与解决方法在运行深度学习或GPU加速任务时，如果您遇到GPU显存未完全占用（例如显存占用率低于50%），但GPU利用率却持续达到100%的现象，这通常表明任务存在性能瓶颈或资源调度问题。这种问题可能导致训练速度变慢、计算效率低下。以下基于参考引用内容，逐步分析原因并提供解决方法。问题可能涉及进程管理、任务调度、数据加载或分布式训练设置。 #### 原因分析 1. **挂起的后台进程占用资源**：如果用户曾使用`Ctrl+Z`（而非`Ctrl+C`）终止程序，进程可能未被完全终止，而是处于挂起状态。这些进程会持续占用GPU计算资源，导致利用率达到100%，但显存未完全利用。nvidia-smi可能不显示这些进程，造成“无进程但GPU占用100%”的假象 [^3]。 2. **多GPU训练中的通信瓶颈**：在多卡训练场景下（如使用PyTorch或TensorFlow），GPU间的通信协议（如NCCL）可能导致阻塞。例如，网络延迟或配置不当会使GPU等待数据传输，计算单元持续忙碌（利用率100%），但显存因数据未完全加载而未被占满 [^4]。 3. **数据加载或CPU瓶颈**： GPU利用率高但显存未满，常因数据预处理（如数据增强、I/O读取）速度跟不上GPU计算速度。GPU被迫“空转”等待新数据，导致利用率虚高。例如，在训练图神经网络时，CPU无法及时提供图数据，GPU利用率可能显示100%但实际计算效率低下 [^1][^2]。 4. **模型或任务设计问题**：计算密集型任务（如小批量矩阵运算）可能使GPU核心持续满载，但显存需求不高。此外，未优化的代码（如Python GIL限制）或驱动兼容性问题也会加剧此现象。 #### 解决方法针对上述原因，逐步排查并优化： 1. **检查并终止挂起进程**： - 使用命令查找并终止挂起进程（替换`user-name`为您的用户名）： ```bash pgrep -u user-name | sudo xargs kill -9 ``` - **预防措施**：始终用`Ctrl+C`终止程序，避免`Ctrl+Z` [^3]。 2. **优化多GPU训练设置**： - 设置环境变量禁用高速通信，改用更稳定的后端： ```bash export NCCL_P2P_DISABLE="1" export NCCL_IB_DISABLE="1" ``` - 在代码中初始化分布式训练时，替换NCCL为gloo： ```python import torch.distributed as dist dist.init_process_group("gloo") # PyTorch示例 ``` 此方法可缓解通信阻塞，平衡GPU负载 [^4]。 3. **解决数据加载瓶颈**： - **增加数据加载线程**：在PyTorch的DataLoader中设置`num_workers`（如`num_workers=4`），或使用TensorFlow的`tf.data`优化流水线。 - **预加载数据**：将数据集预加载到内存或使用内存映射文件。 - **监控CPU利用率**：如果CPU使用率低（例如<30%），表明数据预处理是瓶颈。优化数据增强代码或升级CPU/内存 [^1][^2]。 4. **任务与代码优化**： - **减少小批量计算**：增大批量大小（batch size），让GPU显存更充分利用。 - **使用混合精度训练**：引入`torch.cuda.amp`（PyTorch）或FP16（TensorFlow），降低计算负载。 - **更新驱动和框架**：确保CUDA、cuDNN与深度学习框架版本兼容。 5. **诊断工具推荐**： - **实时监控**：运行`nvidia-smi -l 1`查看GPU动态，结合`htop`检查CPU进程。 - **性能分析**：使用`nsys`（NVIDIA Nsight Systems）或PyTorch Profiler定位代码热点。 #### 预防与最佳实践 - **避免资源泄漏**：任务结束后确认进程完全退出。 - **分布式训练测试**：单卡调试后再扩展多卡，使用`torch.distributed.launch`管理进程。 - **硬件匹配**：确保CPU、内存和存储（如SSD）不成为GPU瓶颈。通过以上步骤，大多数“显存未满但GPU利用率100%”的问题可得到解决。如果问题持续，请提供具体任务代码和环境详情以进一步诊断 [^1][^2][^3][^4]。