云谷计算| 17-11-17
前言
相信各位在安装完NVIDIA GRID软件以后,官方建议的第一种验证GRID是否成功安装的方法就是在命令行下执行nvidia-smi,查看GPU信息是否可以正常的输出来判断GRID是否正常安装。今天我们就重点了解下NVIDIAGPU最重要的命令之一nvidia-smi。
原文:https://developer.nvidia.com/nvidia-system-management-interface
首先我们来看官方对nvidia-smi的定义:
1 基于NVIDIA Management Library (NVIDIA管理库),实现NVIDIA GPU设备的管理和监控功能
2 主要支持Tesla, GRID, Quadro以及TitanX的产品,有限支持其他的GPU产品
所以我们在常见的NVIDIAGPU产品上安装完驱动后,都同时安装上nvidia-smi管理工具,帮助管理人员通过命令行的方式对GPU进行监控和管理。
当我们成功部署了GRID软件以后,我们可以通过以下nvidia-smi命令实现对GPU的管理。
nvidia-smi会随着GRID软件不断的升级,而功能不断的丰富,所以当我们在执行一些复杂的nvidia-smi命令时,可能早期的GRID版本无法支持这些命令。本文的命令基于GRID 5版本,所以在使用的时候请有所注意:
以下nvidia-smi常用命令行是个人推荐了解的:
- nvidia-smi
nvidia-smi会显示出当前GPU的所有基础信息。
- nvidia-smi vgpu
查看当前vGPU的状态信息:
-
nvidia-smi vgpu -p 循环显示虚拟桌面中应用程序对GPU资源的占用情况
-
nvidia-smi -q 查看当前所有GPU的信息,也可以通过参数i指定具体的GPU。
比如nvidia-smi-q -i 0 代表我们查看服务器上第一块GPU的信息。
通过nvidia-smi -q 我们可以获取以下有用的信息:
GPU的SN号、VBIOS、PN号等信息:
GPU的总线、PCI-E总线倍速、风扇转速等信息:
GPU的显存、BAR1、所有资源利用率、ECC模式等信息:
GPU的温度和功率等信息:
通过以上的命令我们基本上可以对当前vGPU环境的物理GPU和正在运行的vGPU有一个基本的了解,为我们后续的性能调优和故障排错提供保证。