关于GPU的一些备注

最新推荐文章于 2025-04-16 21:00:00 发布

原创最新推荐文章于 2025-04-16 21:00:00 发布 · 749 阅读

1 ·

CC 4.0 BY-SA版权

部署运行你感兴趣的模型镜像

使用nvidia-smi查看一些GPU的情况

Processes 部分显示的是在GPU设备上计算或者Graphics Context 的进程列表；

所列的形式是以

GPU index 是现在使用的是哪个GPU 设备号

PID 给出相应的进程号

Type 给出是在GPU中使用的是计算（用C代表，常规的的计算）还是图形图像处理（用G代表，比如做图形渲染）； “C+G” for the process having both Compute and Graphics contexts.

Process Name 是给出了当前的进程的名称

GPU Memory Usage Context在设备上使用的内存量。在WDDM模式下运行时Windows不可用，因为Windows KMD管理的是所有内存，而不是NVIDIA驱动程序的。

Timestamp ：常常是以Day-of-week Month Day HH:MM:SS Year 的形式输出的

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

图生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tangleting

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GPU驱动及CUDA安装流程介绍

笔者从事电信媒体开发多年，愿意将多年的开发经验分享给同行

09-03

1415

GPU驱动及CUDA安装流程介绍

图神经网络训练与GPU调动的问题：使用图神经网络（GNN）时，尽管 GPU 显存占满，但是 GPU 利用率低，如何解决？

最新发布

**My Coding Family**

04-30

1286

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

参与评论您还未登录，请先登录后发表或查看评论

关于GPU

qq_25799253的博客

07-15

327

GPU计算能力和性能指标体现GPU计算能力的两个重要特征： 1)CUDA核的个数； 2)存储器大小。描述GPU性能的两个重要指标： 1)计算性能峰值； 2)存储器带宽。参考：https://blog.youkuaiyun.com/u010837794/article/details/70173580 CUDA计算能力的含义计算能力（Compute Capability）其实是架构的版...

gpu resource-type.xml

lgchaoyangde的博客

05-27

520

<property> <name>yarn.resource-types</name> <value>guaranteed_memory-mb,guaranteed_vcores,max_memory-mb,max_vcores,vssd,gpu,gpu_decoder</value> </property> ...

nvidia-smi中‘C‘、‘G‘和‘C+G‘三种状态的说明

weixin_65301577的博客

02-18

2060

PS：我第一次用nvidia-smi查看GPU状态的时候还以为'C'是指CPU...

nvidia-smi中C\G两种状态的说明

LittleCAIyuan的博客

10-26

5438

nvidia-smi中C\G两种状态的说明在使用nvidia-smi查看GPU使用状态时，发现出现C\G两种状态，一开始以为分别代表CPU和GPU，但是python程序中明明使用了cuda进行加速计算，在查阅相关资料之后发现： C = Compute，它定义了使用Nvidia GPU的计算模式的进程，该Nvidia GPU使用CUDA库，用于使用Tensorflow-GPU，Pytorch等进行深度学习训练和推理 G = Graphics，它定义使用Nvidia GPU的图形模式的进程，这些图形由专业

nvidia-smi输出的解释

IN year

07-18

716

NVIDIA-SMI 440.64: nvidia-smi 的版本号。 Driver Version: 440.64: 安装的 NVIDIA 驱动程序版本。 CUDA Version: 10.2: 支持的 CUDA 版本。 GPU: GPU 编号。 Name: GPU 型号。 Persistence-M: 持久模式（Persistence Mode），表示 GPU 是否处于持久模式以减少延迟（On/Off）。 Bus-Id: GPU 在 PCI 总线上的位置。 Disp.A: 显示设备是否附加（On/O

关于Linux+GPU服务器下GPU显存不足问题

米兰的小码农的博客

05-07

4178

#1. 问题描述在基于Linux系统环境下的GPU服务器上跑深度学习代码时，我们常常会因为不正常退出等问题导致资源没被正常回收而出现GPU显存不足的情况，此时再次运行学习代码就会出现如下图所示报错情况。从图片可以看出我10.91GiB的显存仅剩下362.38MiB，报错提示原因也是ResourceExhaustedError(资源耗尽错误)。 #2. 解决方法 ##2.1 传统方法：传统...

训练PyTorch模型时，GPU 利用率低且训练速度慢...如何解决？

**My Coding Family**

04-16

2190

🏆本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。

基于CUDA的GPU加速通用遗传算法实现c++源码+报告-实验平台为英伟达Jetson Nano.zip

09-05

【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用...

nvidia-smi 命令详解

weixin_44966641的博客

11-09

3万+

nvidia-smi 命令详解简介 nvidia-smi - NVIDIA System Management Interface program nvidia smi（也称为NVSMI）为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数功能，为GeForce品牌的其余部分提供的信息非常有限。NVSMI是一种跨平台工具，支持所有标准NVIDIA驱动程序支持的Linux发行版，以

linux查看GPU使用情况，选择指定gpu运行

小鸡快跑的博客

12-28

1867

nvidia-smi 共有0，1，2三块gpu，processes显示GPU占用情况。 import os os.environ[“CUDA_VISIBLE_DEVICES”] = “2” 选择指定的gpu = 2运行程序

【自用】nvidia-smi命令详解

weixin_46052134的博客

06-05

4266

在深度学习等场景中，nvidia-smi命令是我们经常接触到的一个命令，用来查看GPU的占用情况，可以说是一个必须要学会的命令了，普通用户一般用的比较多的就是nvidia-smi的命令，其实掌握了这一个命令也就能够覆盖绝大多数场景了，但是本质求真务实的态度，本文调研了相关资料，整理了一些比较常用的nvidia-smi命令的其他用法。持续模式的状态，持续模式虽然耗能大，但是在新的GPU应用启动时花费的时间更少，图上显示的是：On。本机中的GPU编号（有多块显卡的时候，从0开始编号）图上GPU的编号是：0。

对Windows程序中设备上下文DC（device context）的理解

weixin_34413065的博客

09-06

414

对Windows程序中设备上下文DC（device context）的理解： DC实际上是GDI内部保存的数据结构。DC与特定的显示设备（如显示器或打印机）相关。对于显示器，DC总是与显示器上的特定视窗相关。 DC中的有些值是图形「属性」，这些属性定义了GDI绘图函数工作的细节。例如，对於TextOut，DC的属性确定了文字的颜色、文字的背景色、x座标和y座标映射到视...

GPU并行效率问题——通过MPS提升GPU计算收益

Dancen的专栏

02-16

8059

Nvidia针对多进程并发执行的场景推出了多进程服务解决方案-MPS，该方案可以做到空分复用。MPS的运行模式为一个MPS Server和多个MPS Client。

英伟达 (Nvidia) GPU 系统管理界面（SMI）

GISer and Coder

11-04

2723

Nvidia GPU 的系统管理界面（System Management Interface, SMI）介绍

nvidia-smi简介及各参数的详解与字段的详解和使用

liu_chen_yang的博客

01-13

7337

nvidia-smi是nvidia 的系统管理界面，其中smi是的缩写，它可以收集各种级别的信息，查看显存使用情况，显卡的温度… …。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。nvidia-sim简称NVSMI，提供监控GPU使用情况和更改GPU状态的功能，是一个跨平台工具，支持所有标准的NVIDIA驱动程序支持的Linux和WindowsServer 2008 R2 开始的64位系统。

nvidia-smi详解

热门推荐

专注于人工智能领域的小何尚

08-10

4万+

大多数用户都知道如何检查他们的 CPU 的状态，查看有多少系统内存可用，或者找出有多少磁盘空间可用。相比之下，从历史上看，密切关注 GPU 的运行状况和状态一直比较困难。如果您不知道去哪里寻找，甚至可能难以确定系统中 GPU 的类型和功能。值得庆幸的是，NVIDIA 最新的硬件和软件工具在这方面做出了很好的改进。该工具是 NVIDIA 的系统管理接口 (nvidia-smi)。根据您卡的代号，可以收集不同级别的信息。此外，可以启用和禁用 GPU 配置选项（例如 ECC 内存功能）。...

GPU使用进程的查看和管理

Kaige_Zhao的博客

03-29

1万+

在跑深度学习的时候出现问题Check failed: error == cudaSuccess (2 vs. 0) out of memory 修改batch_size的大小错误依旧存在，最后发现是一些进程在占用GPU所导致。关闭这些进程，错误消失。查看GPU使用情况nvidia-smi 显示如下：aicrobo@ubuntu:~$ nvidia-smi Thu Mar 29 19:52:48 ...

SLURM-GPU

03-12

### SLURM 中 GPU 调度配置在高性能计算环境中，为了充分利用GPU资源，在SLURM中可以采用特定的方法来配置和使用GPU进行作业调度。 #### 配置GPU支持为了让SLURM识别并管理集群中的GPU设备，需确保安装了NVIDIA驱动程序以及CUDA工具包，并且已正确设置了`nvidia-smi`命令。接着要在SLURM配置文件（通常是`/etc/slurm.conf`）里定义每台节点上的GPU数量和其他属性： ```bash NodeName=node01 Gres=gpu:tesla:4 State=UNKNOWN PartitionName=normal Nodes=node[01-99] Default=YES MaxTime=INFINITE State=UP GresTypes=gpu ``` 这段配置指定了名为node01的节点拥有四个Tesla类型的GPU[^2]。 #### 提交带有GPU请求的任务脚本当向SLURM提交需要访问GPU的应用时，可以通过SBATCH指令指定所需的GPU数目及其他参数： ```bash #!/bin/bash #SBATCH --gres=gpu:1 # 请求一块gpu卡 #SBATCH -p gpu # 使用gpu队列 #SBATCH -J my_gpu_job # 设置job名称 #SBATCH -o output_%j.txt # 输出日志路径 #SBATCH -e error_%j.err # 错误日志路径 module load cuda/11.2 # 加载cuda模块 nvcc program.cu -o program # 编译代码 ./program # 执行编译后的二进制文件 ``` 此批处理脚本会申请单个GPU来进行工作，并加载相应的环境变量以准备运行基于CUDA的应用程序。 #### MPS (Multi Process Service) 对于某些情况下的多进程应用来说，启用MPS服务可能有助于提高性能。通过让多个进程共享同一个CUDA上下文的方式减少开销。如果一个作业独占整张显卡，则可以根据其中是否存在诸如“mps-per-gpu”或者“mps-per-node”的备注信息决定是否开启对应的MPS守护线程[^1]。例如，利用`scontrol show job <jobid>`查看具体作业详情，进而判断是否有必要启动MPS实例；也可以直接设置默认行为使得所有符合条件的新建作业自动激活该功能。