使用node_exporter采集GPU指标

本文介绍了一种扩展Node Exporter的方法,以收集NVIDIA GPU的监控指标,如GPU使用率、温度等,并提供了部署及使用指导。

简介

node_exporter这个开源组件是配合prometheus收集主机操作系统层的metrics的常用组件,但是官方没有提供GPU卡的metrics的采集。公司由于业务需要采集GPU服务器的GPU使用情况,于是基于官方的版本把这个GPU的采集功能添加上.

git 仓库地址: https://gitee.com/kevinliu_CQ/node_exporter.git

实现简述

node_exporter扩展自定义监控指标是在collector这个目录,所以在这个项目中添加gpu_common.go,gpu.go和gpu_linux.go三个文件,用于采集GPU的metrics.采集的底层是使用了nvml这个Nvidia 官方的底层库,所以基本上实配所有N卡的系列。我测试过的系列有Tesla P4 ,Tesla T4 ,2080Ti,3080Ti。

支持的Metrics列表:

gpuDriverVersion //GPU驱动的版本号
total //显存总量 in MiB
used //显存使用量 in MiB
free //显存剩余量 in MiB
utilization //GPU 使用率 in %
temp //GPU温度in C
memUtilization //显存使用绿
maxClock //最大时钟频率
fanSpeed //风扇数度 in %
computeRunningProcesses //运行计算的进程数量
graphicsRunningProcesses //运行图像处理的进程数量
maxPcieLinkWidth //最大PCIE的连接带宽
pcieThroughput //PCIE的吞吐
performanceState //性能状态
powerManagementDefLimit //电源管理的默认上限
powerManagementLimi

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值