一、概况
相信大家在用NVIDIA-GPU训练网络模型的时候,都会习惯性的在终端nvidia-smi一下吧?最直接的目的是为了查看哪些卡正在使用,哪些卡处在空闲,然后挑选空闲的卡号进行网络训练。
「了解哪块卡处在空闲只是普通算法工程师的普通需求」
咱们作为一名资深的算法工程师,毕竟身兼多职:上要开发AI算法,下要管理服务器,左要带新人,右要PPT汇报上级。
对于管理服务器:刚买的新服务器你得装系统吧?得装Driver,Cuda,Cudnn吧?时不时还得盯一下服务器各个卡的运行状况,毕竟刚入职的小年青有时候一顿操作,一个人占用全服务器95%以上的内存把服务器直接卡死也不是没有可能。
nvitop是一个非常全面的NVIDIA-GPU设备运行状况的实时监控工具,它将GPU利用率,显存占比,卡号使用者,CPU利用率,进程使用时间,命令行等等集于一身,并以差异化的颜色进行个性化展示,安装过程也非常简单,强烈大家推荐使用,让自己在管理服务器的时候事半功倍!


相比于nvidia-smi命令,nvitop在实时监控GPU设备资源&性能上具备全方位优势:
- 以更美观的颜色,和更直观的进度条实时展示某块GPU卡所处进程的

文章介绍了nvitop,一个强大的NVIDIAGPU设备实时监控工具,它提供丰富的资源信息,包括GPU/CPU利用率、显存使用、进程跟踪等,并支持多种监控模式和交互式操作。安装和集成方便,适合Linux和Windows平台。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



