nvidia-smi输出内容介绍

本文详细解释了GPU监控中各项指标的具体含义,包括风扇期望转速、温度、性能状态、能耗及持续模式状态、总线ID、显示是否初始化、显存使用率、GPU利用率、ECC信息及计算模式等内容。此外还对比了不同软件对显存和GPU利用率的不同影响。

第一栏的Fan:风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速不是实际转速。有的设备不会返回转速,因为它不依赖风扇冷却。

第二栏的Temp:是温度。
第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
第四栏下方的Pwr:是能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
第五栏的Bus-Id是涉及GPU总线的东西,domain:bus:device.function
第六栏的Disp.A是Display Active,表示GPU的显示是否初始化。
第五第六栏下方的Memory Usage是显存使用率。
第七栏是浮动的GPU利用率。
第八栏上方是关于ECC的东西。
第八栏下方Compute M是计算模式。

显存占用和GPU占用是两个不一样的东西,显卡是由GPU和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。caffe显存占得少,GPU占得多,TensorFlow显存占得多,GPU占得少。

### NVIDIA-smi 输出内容详解 NVIDIA-smi 是一个功能强大的工具,能够帮助用户深入了解和管理 NVIDIA GPU 的性能与状态。以下是其输出内容的具体含义: #### 1. 版本信息 第一行显示 NVIDIA-SMI 的版本号、驱动版本号以及支持的最高 CUDA 版本。例如: ```plaintext NVIDIA-SMI 535.146.02 Driver Version: 535.146.02 CUDA Version: 12.2 ``` 这表明 NVIDIA-SMI 工具的版本为 `535.146.02`,驱动版本同样为 `535.146.02`,并且支持的最高 CUDA 版本为 `12.2`[^4]。 #### 2. GPU 状态概览 这部分展示了每个 GPU 的基本信息,包括风扇转速(Fan)、温度(Temp)、性能状态(Perf)、能耗(Pwr)、总线 ID(Bus-Id)、显示激活状态(Disp.A)等。 - **风扇转速(Fan)**:表示 GPU 风扇的期望转速,范围为 0% 到 100%。如果设备不依赖风扇冷却,则可能显示为 `N/A`[^5]。 - **温度(Temp)**:以摄氏度为单位显示 GPU 的当前温度。 - **性能状态(Perf)**:从 `P0` 到 `P12` 表示性能状态,其中 `P0` 表示最大性能,而较高的数字表示更低的性能模式。 - **能耗(Pwr)**:显示当前的功耗以及功耗限制。 - **持续模式(Persistence-M)**:表示是否启用了 GPU 持续模式。如果为 `off`,则未启用该模式[^5]。 - **总线 ID(Bus-Id)**:描述 GPU 在系统中的总线位置,格式为 `domain:bus:device.function`[^5]。 - **显示激活状态(Disp.A)**:指示 GPU 是否用于显示输出。如果为 `Enabled`,则表示 GPU 正在处理显示任务[^5]。 #### 3. 显存使用情况 这部分展示了 GPU 显存的总容量、已使用量和剩余可用量。例如: ```plaintext Memory-Usage | 800MiB / 16384MiB ``` 上述输出表示显存已使用 `800MiB`,总容量为 `16384MiB`。 #### 4. GPU 利用率 GPU 利用率部分提供了 GPU 核心利用率、显存带宽利用率以及其他相关指标。例如: ```plaintext Utilization | 50% Default ``` 这表明当前 GPU 的核心利用率为 `50%`。 #### 5. ECC 状态 ECC(Error-Correcting Code)用于检测和纠正内存错误。如果 GPU 支持 ECC,则会显示相关的启用或禁用状态[^5]。 #### 6. 计算模式 计算模式(Compute M)部分描述了 GPU 的计算模式。例如,`Default` 表示 GPU 可以被多个进程共享,而 `Exclusive Process` 表示仅允许一个进程独占 GPU[^5]。 #### 7. 进程信息 最后一部分列出了当前正在使用 GPU 的所有进程及其显存占用情况。例如: ```plaintext +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 1234 C python 800MiB | +-----------------------------------------------------------------------------+ ``` 上述输出表示进程 ID 为 `1234` 的 Python 应用程序正在使用 GPU 0,并占用了 `800MiB` 的显存。 ### 示例代码 以下是一个完整的 NVIDIA-smi 输出示例: ```bash nvidia-smi ``` 输出结果可能如下所示: ```plaintext Wed Oct 19 12:34:56 2023 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.146.02 Driver Version: 535.146.02 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | +===============================+======================+======================+ | 0 Tesla V100-SXM2... Off | 00000000:00:1E.0 Off | 0 | | N/A 42C P0 50W / 300W | 800MiB / 16384MiB | 50% Default | +-------------------------------+----------------------+----------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 1234 C python 800MiB | +-----------------------------------------------------------------------------+ ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值