gpustat 使用教程
1. 项目介绍
gpustat
是一个基于 Python 的命令行工具,用于查询和监控 NVIDIA GPU 的状态。它是对 nvidia-smi
命令的封装,提供了更简洁和美观的输出格式。gpustat
适用于需要快速查看 GPU 使用情况的用户,尤其是在多 GPU 环境下。
2. 项目快速启动
安装
你可以通过 pip
快速安装 gpustat
:
pip install gpustat
如果你没有 root 权限,可以使用 --user
选项安装到用户目录:
pip install --user gpustat
使用
安装完成后,你可以直接在命令行中运行 gpustat
来查看 GPU 状态:
gpustat
输出示例如下:
[0] GeForce GTX Titan X | 77°C, 96 % | 11848 / 12287 MB | python/52046(11821M)
常用选项
--color
:强制彩色输出。--no-color
:禁用彩色输出。-u, --show-user
:显示进程所有者的用户名。-c, --show-cmd
:显示进程的命令名称。-f, --show-full-cmd
:显示完整的命令和 CPU 状态。-p, --show-pid
:显示进程的 PID。-F, --show-fan
:显示 GPU 风扇速度。-e, --show-codec
:显示编码器和解码器的利用率。-P, --show-power
:显示 GPU 的功耗和限制。-a, --show-all
:显示所有 GPU 属性。--id
:指定要查询的 GPU 索引。--no-processes
:不显示进程信息。--watch, -i, --interval
:以监视模式运行,指定更新间隔。--json
:以 JSON 格式输出。
3. 应用案例和最佳实践
实时监控
你可以使用 watch
命令来实时监控 GPU 状态:
watch --color -n1 gpustat -cpu
脚本集成
gpustat
可以方便地集成到脚本中,用于自动化任务。例如,你可以编写一个脚本来定期记录 GPU 使用情况:
#!/bin/bash
while true; do
gpustat >> gpu_log.txt
sleep 60
done
多 GPU 环境
在多 GPU 环境中,你可以使用 --id
选项来指定要查询的 GPU:
gpustat --id 0,1
4. 典型生态项目
gpustat-web
gpustat-web
是 gpustat
的一个 Web 界面扩展,允许你通过浏览器监控多个节点的 GPU 状态。它目前处于 Alpha 阶段,适合有经验的用户使用。
slurm_gpustat
slurm_gpustat
是一个用于显示 SLURM 集群上 GPU 使用情况的命令行工具。它可以帮助你汇总和管理集群中的 GPU 资源。
coolgpus
coolgpus
是一个用于无头 Linux 服务器的 GPU 风扇控制脚本。它允许你设置自定义的 GPU 风扇曲线,以优化散热和噪音。
通过这些工具,你可以更全面地管理和监控你的 GPU 资源,提高工作效率。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考