目录
一、DCGMI 概述与应用场景
DCGMI(Data Center GPU Manager Interface)是 NVIDIA 数据中心 GPU 管理套件的核心工具,基于 **NVIDIA Management Library (NVML)** 构建,提供对 GPU 集群的实时监控、配置管理和故障诊断能力。其核心功能包括:
- 硬件监控:获取 GPU 温度、功耗、显存利用率等 100 + 指标;
- 服务管理:通过
nvidia-dcgm.service
实现 daemon 化运行; - 远程控制:支持通过 REST API 或 CLI 跨节点管理;
- 生态集成:与 Prometheus、Grafana 等监控系统无缝对接。
典型应用场景: