了解GPU从nvidia-smi命令开始

最新推荐文章于 2025-10-01 15:44:08 发布

转载最新推荐文章于 2025-10-01 15:44:08 发布 · 3.8k 阅读

·

4

·

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍 NVIDIA 的 nvidia-smi 工具，该工具基于 NVIDIA Management Library 实现，用于管理及监控 NVIDIA GPU 设备。文章详细讲解了 nvidia-smi 的常见用法，包括如何检查 GPU 的基本信息、vGPU 状态、GPU 资源占用情况等。此工具适用于 Tesla、GRID、Quadro 和 Titan X 等产品。

前言

相信各位在安装完NVIDIA GRID软件以后，官方建议的第一种验证GRID是否成功安装的方法就是在命令行下执行nvidia-smi，查看GPU信息是否可以正常的输出来判断GRID是否正常安装。今天我们就重点了解下NVIDIAGPU最重要的命令之一nvidia-smi。

原文：https://developer.nvidia.com/nvidia-system-management-interface

首先我们来看官方对nvidia-smi的定义：

1 基于NVIDIA Management Library （NVIDIA管理库），实现NVIDIA GPU设备的管理和监控功能

2 主要支持Tesla, GRID, Quadro以及TitanX的产品，有限支持其他的GPU产品

所以我们在常见的NVIDIAGPU产品上安装完驱动后，都同时安装上nvidia-smi管理工具，帮助管理人员通过命令行的方式对GPU进行监控和管理。

当我们成功部署了GRID软件以后，我们可以通过以下nvidia-smi命令实现对GPU的管理。

nvidia-smi会随着GRID软件不断的升级，而功能不断的丰富，所以当我们在执行一些复杂的nvidia-smi命令时，可能早期的GRID版本无法支持这些命令。本文的命令基于GRID 5版本，所以在使用的时候请有所注意：

以下nvidia-smi常用命令行是个人推荐了解的：

1. nvidia-smi

nvidia-smi会显示出当前GPU的所有基础信息。

2. nvidia-smi vgpu

查看当前vGPU的状态信息：

3. nvidia-smi vgpu -p 循环显示虚拟桌面中应用程序对GPU资源的占用情况

4. nvidia-smi -q 查看当前所有GPU的信息，也可以通过参数i指定具体的GPU。

比如nvidia-smi-q -i 0 代表我们查看服务器上第一块GPU的信息。

通过nvidia-smi -q 我们可以获取以下有用的信息：

GPU的SN号、VBIOS、PN号等信息：

GPU的总线、PCI-E总线倍速、风扇转速等信息：

GPU的显存、BAR1、所有资源利用率、ECC模式等信息：

GPU的温度和功率等信息：

通过以上的命令我们基本上可以对当前vGPU环境的物理GPU和正在运行的vGPU有一个基本的了解，为我们后续的性能调优和故障排错提供保证。

欢迎关注欢迎转载

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。