目录
7.2.1 使用nvidia-smi从虚拟化管理程序监控GPU性能
7.2.2 使用Citrix XenCenter监控GPU性能
7.3.1 使用nvidia-smi从客户虚拟机监控GPU性能
8.4.2 自15.1版本以来:获取分时vGPU调度器状态信息
9.2.4.1 检查 Citrix Hypervisor vGPU 管理器 消息
9.2.4.2 检查 Red Hat Enterprise Linux KVM vGPU 管理器 消息
9.2.4.3 检查 VMware vSphere vGPU 管理器 消息
9.3.1 通过运行 nvidia-bug-report.sh 捕获配置数据
9.3.2 通过创建 Citrix Hypervisor 状态报告捕获配置数据
A.1.1 NVIDIA A800 PCIe 80GB 和 NVIDIA A800 PCIe 80GB 液冷虚拟 GPU 类型
NVIDIA&GRID vGPU软件-中文用户指南第一章、第二章内容请看NVIDIA&GRID vGPU软件-中文用户指南(上)_nvidia-uvm mps vgpu-优快云博客
NVIDIA&GRID vGPU软件-中文用户指南第三章、第四章、第五章内容请看NVIDIA&GRID vGPU软件-中文用户指南(中)-优快云博客
本文暂时未将第六章(移除vGPU配置)内容整理翻译,后续会加入到指南中去
第七章、监控GPU性能
NVIDIA vGPU软件使您能够从虚拟机监控物理GPU和虚拟GPU的性能。您可以使用几种工具来监控GPU性能:
‣ 从任何支持的虚拟化管理程序,以及从运行64位版本的Windows或Linux的客户虚拟机中,您可以使用NVIDIA系统管理接口nvidia-smi。
‣ 从Citrix Hypervisor,您可以使用Citrix XenCenter。
‣ 从Windows客户虚拟机,您可以使用以下工具:
‣ Windows性能监视器
‣ Windows管理工具(WMI)
7.1 NVIDIA系统管理接口nvidia-smi
NVIDIA系统管理接口nvidia-smi是一个命令行工具,用于报告NVIDIA GPU的管理信息。nvidia-smi工具包含在以下软件包中:
‣ 针对每个支持的虚拟化管理程序的NVIDIA虚拟GPU管理程序包
‣ 针对每个支持的客户操作系统的NVIDIA驱动程序包
报告的管理信息的范围取决于您从何处运行nvidia-smi:
‣ 从虚拟化管理程序命令行,如Citrix Hypervisor的dom0 shell或VMware ESXi主机shell,nvidia-smi报告系统中存在的NVIDIA物理GPU和虚拟GPU的管理信息。
注意:当从虚拟化管理程序命令行运行时,nvidia-smi不会列出当前分配给GPU透传的任何GPU。 从客户虚拟机中,nvidia-smi检索分配给虚拟机的vGPU或透传GPU的使用统计信息。 在Windows客户虚拟机中,nvidia-smi安装在默认可执行路径中的一个文件夹中。因此,您可以通过运行nvidia-smi.exe命令从任何文件夹的命令提示符中运行nvidia-smi。
7.2 从虚拟化管理程序监控GPU性能
您可以通过使用NVIDIA系统管理接口nvidia-smi命令行实用程序从任何支持的虚拟化管理程序监控GPU性能。在Citrix Hypervisor平台上,您还可以使用Citrix XenCenter来监控GPU性能。
注意:您无法从虚拟化管理程序监控正在用于GPU透传的GPU的性能。您只能从使用这些GPU的客户虚拟机内监控透传GPU的性能。
7.2.1 使用nvidia-smi从虚拟化管理程序监控GPU性能
通过从虚拟化管理程序命令行(如Citrix Hypervisor dom0 shell或VMware ESXi主机shell)
运行nvidia-smi,您可以获取系统中存在的NVIDIA物理GPU和虚拟GPU的管理信息。 没有子命令时,nvidia-smi提供物理GPU的管理信息。要更详细地查看虚拟GPU,请使用带有vgpu子命令的nvidia-smi。 从命令行可以获取有关nvidia-smi工具和vgpu子命令的帮助信息。
帮助信息 | 命令 |
nvidia-smi工具支持的子命令列表。请注意,并非所有子命令都适用于支持NVIDIA vGPU软件的GPU。 | nvidia-smi -h |
vgpu子命令支持的所有选项列表。 | nvidia-smi vgpu –h |
7.2.1.1 获取系统中所有物理GPU的摘要
要获取系统中所有物理GPU的摘要,包括PCI总线ID、电源状态、温度、当前内存使用情况等,请运行nvidia-smi而不添加额外参数。
每个vGPU实例都在“计算进程”部分中报告,同时显示其物理GPU索引和分配给它的帧缓冲内存量。
在接下来的示例中,系统中正在运行三个vGPU:一个vGPU在每个物理GPU 0、1和2上运行。
[root@vgpu ~]# nvidia-smi
Fri Jul 14 09:26:18 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.03 Driver Version: 525.125.03 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 0000:83:00.0 Off | Off |
| N/A 31C P8 23W / 150W | 1889MiB / 8191MiB | 7% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M60 On | 0000:84:00.0 Off | Off |
| N/A 26C P8 23W / 150W | 926MiB / 8191MiB | 9% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla M10 On | 0000:8A:00.0 Off | N/A |
| N/A 23C P8 10W / 53W | 1882MiB / 8191MiB | 12% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla M10 On | 0000:8B:00.0 Off | N/A |
| N/A 26C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 4 Tesla M10 On | 0000:8C:00.0 Off | N/A |
| N/A 34C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 5 Tesla M10 On | 0000:8D:00.0 Off | N/A |
| N/A 32C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 11924 C+G /usr/lib64/xen/bin/vgpu 1856MiB |
| 1 11903 C+G /usr/lib64/xen/bin/vgpu 896MiB |
| 2 11908 C+G /usr/lib64/xen/bin/vgpu 1856MiB |
+-----------------------------------------------------------------------------+
[root@vgpu ~]#
7.2.1.2 获取系统中所有vGPU的摘要
要获取当前在系统中每个物理GPU上运行的vGPU的摘要,请运行nvidia-smi vgpu而不添加额外参数。
[root@vgpu ~]# nvidia-smi vgpu
Fri Jul 14 09:27:06 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.03 Driver Version: 525.125.03 |
|-------------------------------+--------------------------------+------------+
| GPU Name | Bus-Id | GPU-Util |
| vGPU ID Name | VM ID VM Name | vGPU-Util |
|===============================+================================+============|
| 0 Tesla M60 | 0000:83:00.0 | 7% |
| 11924 GRID M60-2Q | 3 Win7-64 GRID test 2 | 6% |
+-------------------------------+--------------------------------+------------+
| 1 Tesla M60 | 0000:84:00.0 | 9% |
| 11903 GRID M60-1B | 1 Win8.1-64 GRID test 3 | 8% |
+-------------------------------+--------------------------------+------------+
| 2 Tesla M10 | 0000:8A:00.0 | 12% |
| 11908 GRID M10-2Q | 2 Win7-64 GRID test 1 | 10% |
+-------------------------------+--------------------------------+------------+
| 3 Tesla M10 | 0000:8B:00.0 | 0%
+-------------------------------+--------------------------------+------------+
| 4 Tesla M10 | 0000:8C:00.0 | 0% |
+-------------------------------+--------------------------------+------------+
| 5 Tesla M10 | 0000:8D:00.0 | 0% |
+-------------------------------+--------------------------------+------------+
[root@vgpu ~]#
7.2.1.3 获取物理GPU详细信息
要获取关于平台上所有物理GPU的详细信息,请使用nvidia-smi运行-q或--query选项。
[root@vgpu ~]# nvidia-smi -q
==============NVSMI LOG==============
Timestamp : Tue Nov 22 10:33:26 2022
Driver Version : 525.60.06
CUDA Version : Not Found
vGPU Driver Capability
Heterogenous Multi-vGPU : Supported
Attached GPUs : 3
GPU 00000000:C1:00.0
Product Name : Tesla T4
Product Brand : NVIDIA
Product Architecture : Turing
Display Mode : Enabled
Display Active : Disabled
Persistence Mode : Enabled
vGPU Device Capability
Fractional Multi-vGPU : Supported
Heterogeneous Time-Slice Profiles : Supported
Heterogeneous Time-Slice Sizes : Not Supported
MIG Mode
Current : N/A
Pending : N/A
Accounting Mode : Enabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1321120031291
GPU UUID : GPU-9084c1b2-624f-2267-4b66-345583fbd981
Minor Number : 1
VBIOS Version : 90.04.38.00.03
MultiGPU Board : No
Board ID : 0xc100
Board Part Number : 900-2G183-0000-001
GPU Part Number : 1EB8-895-A1
Module ID : 0
Inforom Version
Image Version : G183.0200.00.02
OEM Object : 1.1
ECC Object : 5.0
Power Management Object : N/A
GPU Operation Mode
Current : N/A
Pending : N/A
GSP Firmware Version : N/A
GPU Virtualization Mode
Virtualization Mode : Host VGPU
Host VGPU Mode : Non SR-IOV
IBMNPU
Relaxed Ordering Mode : N/A
PCI
Bus : 0xC1
Device : 0x00
Domain : 0x0000
Device Id : 0x1EB810DE
Bus Id : 00000000:C1:00.0
Sub System Id : 0x12A210DE
GPU Link Info
PCIe Generation
Max : 3
Current : 1
Device Current : 1
Device Max : 3
Host Max : N/A
Link Width
Max : 16x
Current : 16x
Bridge Chip
Type : N/A
Firmware : N/A
Replays Since Reset : 0
Replay Number Rollovers : 0
Tx Throughput : 0 KB/s
Rx Throughput : 0 KB/s
Atomic Caps Inbound : N/A
Atomic Caps Outbound : N/A
Fan Speed : N/A
Performance State : P8
Clocks Throttle Reasons
Idle : Active
Applications Clocks Setting : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
HW Thermal Slowdown : Not Active
HW Power Brake Slowdown : Not Active
Sync Boost : Not Active
SW Thermal Slowdown : Not Active
Display Clock Setting : Not Active
FB Memory Usage
Total : 15360 MiB
Reserved : 0 MiB
Used : 3859 MiB
Free : 11500 MiB
BAR1 Memory Usage
Total : 256 MiB
Used : 17 MiB
Free : 239 MiB
Compute Mode : Default
Utilization
Gpu : 0 %
Memory : 0 %
Encoder : 0 %
Decoder : 0 %
Encoder Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
FBC Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
SRAM Correctable : 0
SRAM Uncorrectable : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
Retired Pages
Single Bit ECC : 0
Double Bit ECC : 0
Pending Page Blacklist : No
Remapped Rows : N/A
Temperature
GPU Current Temp : 35 C
GPU Shutdown Temp : 96 C
GPU Slowdown Temp : 93 C
GPU Max Operating Temp : 85 C
GPU Target Temperature : N/A
Memory Current Temp : N/A
Memory Max Operating Temp : N/A
Power Readings
Power Management : Supported
Power Draw : 16.57 W
Power Limit : 70.00 W
Default Power Limit : 70.00 W
Enforced Power Limit : 70.00 W
Min Power Limit : 60.00 W
Max Power Limit : 70.00 W
Clocks
Graphics : 300 MHz
SM : 300 MHz
Memory : 405 MHz
Video : 540 MHz
Applications Clocks
Graphics : 585 MHz
Memory : 5001 MHz
Default Applications Clocks
Graphics : 585 MHz
Memory : 5001 MHz
Deferred Clocks
Memory : N/A
Max Clocks
Graphics : 1590 MHz
SM : 1590 MHz
Memory : 5001 MHz
Video : 1470 MHz
Max Customer Boost Clocks
Graphics : 1590 MHz
Clock Policy
Auto Boost : N/A
Auto Boost Default : N/A
Voltage
Graphics : N/A
Fabric
State : N/A
Status : N/A
Processes
GPU instance ID : N/A
Compute instance ID : N/A
Process ID : 2103065
Type : C+G
Name : Win11SV2_View87
Used GPU Memory : 3810 MiB
[root@vgpu ~]#
7.2.1.4 获取vGPU详细信息
要获取关于平台上所有vGPU的详细信息,请使用nvidia-smi vgpu运行-q或--query选项。 要将检索到的信息限制为平台上一部分GPU,请使用-i或--id选项选择一个或多个vGPU。
[root@vgpu ~]# nvidia-smi vgpu -q -i 1
GPU 00000000:C1:00.0
Active vGPUs : 1
vGPU ID : 3251634327
VM ID : 2103066
VM Name : Win11SV2_View87
vGPU Name : GRID T4-4Q
vGPU Type : 232
vGPU UUID : afdcf724-1dd2-11b2-8534-624f22674b66
Guest Driver Version : 527.15
License Status : Licensed (Expiry: 2022-11-23 5:2:12 GMT)
GPU Instance ID : N/A
Accounting Mode : Disabled
ECC Mode : Enabled
Accounting Buffer Size : 4000
Frame Rate Limit : 60 FPS
PCI
Bus Id : 00000000:02:04.0
FB Memory Usage
Total : 4096 MiB
Used : 641 MiB
Free : 3455 MiB
Utilization
Gpu : 0 %
Memory : 0 %
Encoder : 0 %
Decoder : 0 %
Encoder Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
FBC Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
[root@vgpu ~]#
7.2.1.5 监控vGPU引擎使用情况
要跨多个vGPU监控vGPU引擎使用情况,请使用nvidia-smi vgpu运行-u或--utilization选项。 对于每个vGPU,以下表中的使用统计数据每秒报告一次。 表还显示了命令输出中每个统计数据所报告的列的名称。
统计 | 列 |
3 d /计算 | sm |
存储器控制器带宽 | mem |
视频编码器 | enc |
视频解码器 | dec |
每个报告的百分比是vGPU正在使用的物理GPU容量的百分比。例如,使用GPU图形引擎容量的20%的vGPU将报告20%。 要修改报告频率,请使用-l或--loop选项。 要将监视限制为平台上一部分GPU,请使用-i或--id选项选择一个或多个vGPU。
[root@vgpu ~]# nvidia-smi vgpu -u
7.2.1.6 应用程序监控vGPU引擎使用情况
要监控跨多个vGPU的应用程序对vGPU引擎的使用情况,请运行nvidia-smi vgpu,并使用-p选项。 对于每个vGPU上的每个应用程序,以下表中的使用统计数据每秒报告一次。每个应用程序由其进程ID和进程名称标识。 表还显示了命令输出中每个统计数据报告的列名。
统计 | 列 |