简介
node_exporter这个开源组件是配合prometheus收集主机操作系统层的metrics的常用组件,但是官方没有提供GPU卡的metrics的采集。公司由于业务需要采集GPU服务器的GPU使用情况,于是基于官方的版本把这个GPU的采集功能添加上.
git 仓库地址: https://gitee.com/kevinliu_CQ/node_exporter.git
实现简述
node_exporter扩展自定义监控指标是在collector这个目录,所以在这个项目中添加gpu_common.go,gpu.go和gpu_linux.go三个文件,用于采集GPU的metrics.采集的底层是使用了nvml这个Nvidia 官方的底层库,所以基本上实配所有N卡的系列。我测试过的系列有Tesla P4 ,Tesla T4 ,2080Ti,3080Ti。
支持的Metrics列表:
gpuDriverVersion //GPU驱动的版本号
total //显存总量 in MiB
used //显存使用量 in MiB
free //显存剩余量 in MiB
utilization //GPU 使用率 in %
temp //GPU温度in C
memUtilization //显存使用绿
maxClock //最大时钟频率
fanSpeed //风扇数度 in %
computeRunningProcesses //运行计算的进程数量
graphicsRunningProcesses //运行图像处理的进程数量
maxPcieLinkWidth //最大PCIE的连接带宽
pcieThroughput //PCIE的吞吐
performanceState //性能状态
powerManagementDefLimit //电源管理的默认上限
powerManagementLimi

本文介绍了一种扩展Node Exporter的方法,以收集NVIDIA GPU的监控指标,如GPU使用率、温度等,并提供了部署及使用指导。
最低0.47元/天 解锁文章
126

被折叠的 条评论
为什么被折叠?



