NVIDIA&GRID vGPU软件-中文用户指南(下)

目录

第七章、监控GPU性能

7.1 NVIDIA系统管理接口nvidia-smi

7.2 从虚拟化管理程序监控GPU性能

7.2.1 使用nvidia-smi从虚拟化管理程序监控GPU性能

7.2.1.1 获取系统中所有物理GPU的摘要

7.2.1.2  获取系统中所有vGPU的摘要

7.2.1.3 获取物理GPU详细信息

7.2.1.4 获取vGPU详细信息

7.2.1.5 监控vGPU引擎使用情况

7.2.1.6 应用程序监控vGPU引擎使用情况

7.2.1.7 监控编码器会话

7.2.1.8 监控帧缓冲区捕获(FBC)会话

7.2.1.9 列出支持的vGPU类型

7.2.1.10 列出当前可以创建的vGPU类型

7.2.2 使用Citrix XenCenter监控GPU性能

​编辑 7.3 从客户虚拟机监控GPU性能

7.3.1 使用nvidia-smi从客户虚拟机监控GPU性能

7.3.2 使用Windows性能计数器监控GPU性能

7.3.3 使用NVWMI监控GPU性能

第八章、更改时间(分时)切片vGPU的调度行为

8.1  时间(分时)切片vGPU的调度策略

8.2 时间(分时)切片vGPU的调度器

 8.3 RmPVMRL注册表键

 8.4 获取有关分时vGPU调度行为的信息

8.4.1 自15.1版本以来:获取分时vGPU调度器功能

 8.4.2 自15.1版本以来:获取分时vGPU调度器状态信息

8.4.3 获取分时vGPU调度器工作日志

8.4.4 获取所有GPU的当前分时vGPU调度策略

8.5 更改所有GPU的分时vGPU调度行为

8.6 更改选定GPU的分时vGPU调度行为

8.7 恢复默认的分时vGPU调度器设置

第九章、 故障排除

9.2 故障排除步骤

9.2.1 验证NVIDIA内核驱动程序是否加载

 9.2.2 验证nvidia-smi工作正常

9.2.3 检查NVIDIA内核驱动程序输出

9.2.4 检查 NVIDIA 虚拟 GPU 管理器

9.2.4.1 检查 Citrix Hypervisor vGPU 管理器 消息

9.2.4.2 检查 Red Hat Enterprise Linux KVM vGPU 管理器 消息

9.2.4.3 检查 VMware vSphere vGPU 管理器 消息

9.3 捕获配置数据以便提交错误报告

9.3.1 通过运行 nvidia-bug-report.sh 捕获配置数据

9.3.2 通过创建 Citrix Hypervisor 状态报告捕获配置数据

附录 A. 虚拟 GPU 类型 参考; 

A.1 支持的 GPU 的虚拟 GPU 类型

A.1.1 NVIDIA A800 PCIe 80GB 和 NVIDIA A800 PCIe 80GB 液冷虚拟 GPU 类型

A.1.2 NVIDIA A800 HGX虚拟GPU类型


NVIDIA&GRID vGPU软件-中文用户指南第一章、第二章内容请看​​​​​​NVIDIA&GRID vGPU软件-中文用户指南(上)_nvidia-uvm mps vgpu-优快云博客

NVIDIA&GRID vGPU软件-中文用户指南第三章、第四章、第五章内容请看NVIDIA&GRID vGPU软件-中文用户指南(中)-优快云博客

本文暂时未将第六章(移除vGPU配置)内容整理翻译,后续会加入到指南中去

第七章、监控GPU性能

NVIDIA vGPU软件使您能够从虚拟机监控物理GPU和虚拟GPU的性能。您可以使用几种工具来监控GPU性能:

‣ 从任何支持的虚拟化管理程序,以及从运行64位版本的Windows或Linux的客户虚拟机中,您可以使用NVIDIA系统管理接口nvidia-smi。

‣ 从Citrix Hypervisor,您可以使用Citrix XenCenter。

‣ 从Windows客户虚拟机,您可以使用以下工具:

‣ Windows性能监视器

‣ Windows管理工具(WMI)

7.1 NVIDIA系统管理接口nvidia-smi

NVIDIA系统管理接口nvidia-smi是一个命令行工具,用于报告NVIDIA GPU的管理信息。nvidia-smi工具包含在以下软件包中:

‣ 针对每个支持的虚拟化管理程序的NVIDIA虚拟GPU管理程序包

‣ 针对每个支持的客户操作系统的NVIDIA驱动程序包

报告的管理信息的范围取决于您从何处运行nvidia-smi:

‣ 从虚拟化管理程序命令行,如Citrix Hypervisor的dom0 shell或VMware ESXi主机shell,nvidia-smi报告系统中存在的NVIDIA物理GPU和虚拟GPU的管理信息。

注意:当从虚拟化管理程序命令行运行时,nvidia-smi不会列出当前分配给GPU透传的任何GPU。 从客户虚拟机中,nvidia-smi检索分配给虚拟机的vGPU或透传GPU的使用统计信息。 在Windows客户虚拟机中,nvidia-smi安装在默认可执行路径中的一个文件夹中。因此,您可以通过运行nvidia-smi.exe命令从任何文件夹的命令提示符中运行nvidia-smi。

7.2 从虚拟化管理程序监控GPU性能

您可以通过使用NVIDIA系统管理接口nvidia-smi命令行实用程序从任何支持的虚拟化管理程序监控GPU性能。在Citrix Hypervisor平台上,您还可以使用Citrix XenCenter来监控GPU性能。

注意:您无法从虚拟化管理程序监控正在用于GPU透传的GPU的性能。您只能从使用这些GPU的客户虚拟机内监控透传GPU的性能。

7.2.1 使用nvidia-smi从虚拟化管理程序监控GPU性能

通过从虚拟化管理程序命令行(如Citrix Hypervisor dom0 shell或VMware ESXi主机shell)

运行nvidia-smi,您可以获取系统中存在的NVIDIA物理GPU和虚拟GPU的管理信息。 没有子命令时,nvidia-smi提供物理GPU的管理信息。要更详细地查看虚拟GPU,请使用带有vgpu子命令的nvidia-smi。 从命令行可以获取有关nvidia-smi工具和vgpu子命令的帮助信息。

帮助信息 命令
 nvidia-smi工具支持的子命令列表。请注意,并非所有子命令都适用于支持NVIDIA vGPU软件的GPU。 nvidia-smi -h
vgpu子命令支持的所有选项列表。 nvidia-smi vgpu –h

 

 

 

 

7.2.1.1 获取系统中所有物理GPU的摘要

要获取系统中所有物理GPU的摘要,包括PCI总线ID、电源状态、温度、当前内存使用情况等,请运行nvidia-smi而不添加额外参数。

每个vGPU实例都在“计算进程”部分中报告,同时显示其物理GPU索引和分配给它的帧缓冲内存量。

在接下来的示例中,系统中正在运行三个vGPU:一个vGPU在每个物理GPU 0、1和2上运行。 

[root@vgpu ~]# nvidia-smi
Fri Jul 14 09:26:18 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.03 Driver Version: 525.125.03 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 0000:83:00.0 Off | Off |
| N/A 31C P8 23W / 150W | 1889MiB / 8191MiB | 7% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M60 On | 0000:84:00.0 Off | Off |
| N/A 26C P8 23W / 150W | 926MiB / 8191MiB | 9% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla M10 On | 0000:8A:00.0 Off | N/A |
| N/A 23C P8 10W / 53W | 1882MiB / 8191MiB | 12% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla M10 On | 0000:8B:00.0 Off | N/A |
| N/A 26C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 4 Tesla M10 On | 0000:8C:00.0 Off | N/A |
| N/A 34C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 5 Tesla M10 On | 0000:8D:00.0 Off | N/A |
| N/A 32C P8 10W / 53W | 10MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 11924 C+G /usr/lib64/xen/bin/vgpu 1856MiB |
| 1 11903 C+G /usr/lib64/xen/bin/vgpu 896MiB |
| 2 11908 C+G /usr/lib64/xen/bin/vgpu 1856MiB |
+-----------------------------------------------------------------------------+
[root@vgpu ~]#
7.2.1.2  获取系统中所有vGPU的摘要

要获取当前在系统中每个物理GPU上运行的vGPU的摘要,请运行nvidia-smi vgpu而不添加额外参数。

[root@vgpu ~]# nvidia-smi vgpu
Fri Jul 14 09:27:06 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.03 Driver Version: 525.125.03 |
|-------------------------------+--------------------------------+------------+
| GPU Name | Bus-Id | GPU-Util |
| vGPU ID Name | VM ID VM Name | vGPU-Util |
|===============================+================================+============|
| 0 Tesla M60 | 0000:83:00.0 | 7% |
| 11924 GRID M60-2Q | 3 Win7-64 GRID test 2 | 6% |
+-------------------------------+--------------------------------+------------+
| 1 Tesla M60 | 0000:84:00.0 | 9% |
| 11903 GRID M60-1B | 1 Win8.1-64 GRID test 3 | 8% |
+-------------------------------+--------------------------------+------------+
| 2 Tesla M10 | 0000:8A:00.0 | 12% |
| 11908 GRID M10-2Q | 2 Win7-64 GRID test 1 | 10% |
+-------------------------------+--------------------------------+------------+
| 3 Tesla M10 | 0000:8B:00.0 | 0%
+-------------------------------+--------------------------------+------------+
| 4 Tesla M10 | 0000:8C:00.0 | 0% |
+-------------------------------+--------------------------------+------------+
| 5 Tesla M10 | 0000:8D:00.0 | 0% |
+-------------------------------+--------------------------------+------------+
[root@vgpu ~]#
7.2.1.3 获取物理GPU详细信息

要获取关于平台上所有物理GPU的详细信息,请使用nvidia-smi运行-q--query选项。

[root@vgpu ~]# nvidia-smi -q
==============NVSMI LOG==============
Timestamp : Tue Nov 22 10:33:26 2022
Driver Version : 525.60.06
CUDA Version : Not Found
vGPU Driver Capability
Heterogenous Multi-vGPU : Supported
Attached GPUs : 3
GPU 00000000:C1:00.0
Product Name : Tesla T4
Product Brand : NVIDIA
Product Architecture : Turing
Display Mode : Enabled
Display Active : Disabled
Persistence Mode : Enabled
vGPU Device Capability
Fractional Multi-vGPU : Supported
Heterogeneous Time-Slice Profiles : Supported
Heterogeneous Time-Slice Sizes : Not Supported
MIG Mode
Current : N/A
Pending : N/A
Accounting Mode : Enabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1321120031291
GPU UUID : GPU-9084c1b2-624f-2267-4b66-345583fbd981
Minor Number : 1
VBIOS Version : 90.04.38.00.03
MultiGPU Board : No
Board ID : 0xc100
Board Part Number : 900-2G183-0000-001
GPU Part Number : 1EB8-895-A1
Module ID : 0
Inforom Version
Image Version : G183.0200.00.02
OEM Object : 1.1
ECC Object : 5.0
Power Management Object : N/A
GPU Operation Mode
Current : N/A
Pending : N/A
GSP Firmware Version : N/A
GPU Virtualization Mode
Virtualization Mode : Host VGPU
Host VGPU Mode : Non SR-IOV
IBMNPU
Relaxed Ordering Mode : N/A
PCI
Bus : 0xC1
Device : 0x00
Domain : 0x0000
Device Id : 0x1EB810DE
Bus Id : 00000000:C1:00.0
Sub System Id : 0x12A210DE
GPU Link Info
PCIe Generation
Max : 3
Current : 1
Device Current : 1
Device Max : 3
Host Max : N/A
Link Width
Max : 16x
Current : 16x
Bridge Chip
Type : N/A
Firmware : N/A
Replays Since Reset : 0
Replay Number Rollovers : 0
Tx Throughput : 0 KB/s
Rx Throughput : 0 KB/s
Atomic Caps Inbound : N/A
Atomic Caps Outbound : N/A
Fan Speed : N/A
Performance State : P8
Clocks Throttle Reasons
Idle : Active
Applications Clocks Setting : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
HW Thermal Slowdown : Not Active
HW Power Brake Slowdown : Not Active
Sync Boost : Not Active
SW Thermal Slowdown : Not Active
Display Clock Setting : Not Active
FB Memory Usage
Total : 15360 MiB
Reserved : 0 MiB
Used : 3859 MiB
Free : 11500 MiB
BAR1 Memory Usage
Total : 256 MiB
Used : 17 MiB
Free : 239 MiB
Compute Mode : Default
Utilization
Gpu : 0 %
Memory : 0 %
Encoder : 0 %
Decoder : 0 %
Encoder Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
FBC Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
SRAM Correctable : 0
SRAM Uncorrectable : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
Retired Pages
Single Bit ECC : 0
Double Bit ECC : 0
Pending Page Blacklist : No
Remapped Rows : N/A
Temperature
GPU Current Temp : 35 C
GPU Shutdown Temp : 96 C
GPU Slowdown Temp : 93 C
GPU Max Operating Temp : 85 C
GPU Target Temperature : N/A
Memory Current Temp : N/A
Memory Max Operating Temp : N/A
Power Readings
Power Management : Supported
Power Draw : 16.57 W
Power Limit : 70.00 W
Default Power Limit : 70.00 W
Enforced Power Limit : 70.00 W
Min Power Limit : 60.00 W
Max Power Limit : 70.00 W
Clocks
Graphics : 300 MHz
SM : 300 MHz
Memory : 405 MHz
Video : 540 MHz
Applications Clocks
Graphics : 585 MHz
Memory : 5001 MHz
Default Applications Clocks
Graphics : 585 MHz
Memory : 5001 MHz
Deferred Clocks
Memory : N/A
Max Clocks
Graphics : 1590 MHz
SM : 1590 MHz
Memory : 5001 MHz
Video : 1470 MHz
Max Customer Boost Clocks
Graphics : 1590 MHz
Clock Policy
Auto Boost : N/A
Auto Boost Default : N/A
Voltage
Graphics : N/A
Fabric
State : N/A
Status : N/A
Processes
GPU instance ID : N/A
Compute instance ID : N/A
Process ID : 2103065
Type : C+G
Name : Win11SV2_View87
Used GPU Memory : 3810 MiB
[root@vgpu ~]#
7.2.1.4 获取vGPU详细信息

要获取关于平台上所有vGPU的详细信息,请使用nvidia-smi vgpu运行-q--query选项。 要将检索到的信息限制为平台上一部分GPU,请使用-i或--id选项选择一个或多个vGPU。

[root@vgpu ~]# nvidia-smi vgpu -q -i 1
GPU 00000000:C1:00.0
Active vGPUs : 1
vGPU ID : 3251634327
VM ID : 2103066
VM Name : Win11SV2_View87
vGPU Name : GRID T4-4Q
vGPU Type : 232
vGPU UUID : afdcf724-1dd2-11b2-8534-624f22674b66
Guest Driver Version : 527.15
License Status : Licensed (Expiry: 2022-11-23 5:2:12 GMT)
GPU Instance ID : N/A
Accounting Mode : Disabled
ECC Mode : Enabled
Accounting Buffer Size : 4000
Frame Rate Limit : 60 FPS
PCI
Bus Id : 00000000:02:04.0
FB Memory Usage
Total : 4096 MiB
Used : 641 MiB
Free : 3455 MiB
Utilization
Gpu : 0 %
Memory : 0 %
Encoder : 0 %
Decoder : 0 %
Encoder Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
FBC Stats
Active Sessions : 0
Average FPS : 0
Average Latency : 0
[root@vgpu ~]#
7.2.1.5 监控vGPU引擎使用情况

要跨多个vGPU监控vGPU引擎使用情况,请使用nvidia-smi vgpu运行-u或--utilization选项。 对于每个vGPU,以下表中的使用统计数据每秒报告一次。 表还显示了命令输出中每个统计数据所报告的列的名称。

统计
3 d /计算 sm
存储器控制器带宽 mem
视频编码器 enc
视频解码器 dec

每个报告的百分比是vGPU正在使用的物理GPU容量的百分比。例如,使用GPU图形引擎容量的20%的vGPU将报告20%。 要修改报告频率,请使用-l或--loop选项。 要将监视限制为平台上一部分GPU,请使用-i或--id选项选择一个或多个vGPU。

[root@vgpu ~]# nvidia-smi vgpu -u

7.2.1.6 应用程序监控vGPU引擎使用情况

要监控跨多个vGPU的应用程序对vGPU引擎的使用情况,请运行nvidia-smi vgpu,并使用-p选项。 对于每个vGPU上的每个应用程序,以下表中的使用统计数据每秒报告一次。每个应用程序由其进程ID和进程名称标识。 表还显示了命令输出中每个统计数据报告的列名。

统计
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值