在 Ubuntu 系统中,查看和监控 NVIDIA 显卡的工具和指令有很多,涵盖从基础信息查询到实时性能监控等场景。以下是常用的工具和指令,尤其适合多卡(如你的两块 RTX A6000)环境:
一、核心指令(依赖 NVIDIA 驱动,必知)
1. nvidia-smi(最基础、最常用)
NVIDIA 官方工具,用于查看显卡型号、驱动版本、显存占用、温度、进程占用等核心信息,支持多卡显示。
常用用法:
nvidia-smi # 一次性查看所有 GPU 状态
nvidia-smi -l 1 # 每秒刷新一次(实时监控)
nvidia-smi -i 0 # 只查看第 0 块 GPU(多卡时指定,0 为第一块)
nvidia-smi --query-gpu=name,memory.total,memory.used --format=csv # 自定义查询字段(名称、总显存、已用显存)
nvidia-smi pmon # 监控 GPU 进程占用(实时更新)
2. nvidia-settings(图形化配置工具)
图形界面工具,可查看显卡详细参数(如 GPU 频率、风扇转速、多卡布局),并支持配置双屏、性能模式等。
使用方法:
nvidia-settings # 直接在终端输入,会弹出图形窗口
在窗口中可切换 “GPU 0”“GPU 1” 标签查看两块 RTX A6000 的详细信息,也能在 “PowerMizer” 中调整性能模式。
二、硬件与驱动信息查询(不依赖驱动状态)
1. lspci(查看显卡硬件信息)
系统级工具,无论驱动是否正常,都能显示显卡的硬件型号和 PCI 位置(适合确认系统是否识别显卡)。
lspci | grep -i nvidia # 筛选 NVIDIA 显卡(多卡会显示多个条目)
输出类似:01:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000] (rev a1)
2. modinfo nvidia(查看驱动内核模块版本)
用于确认当前加载的 NVIDIA 内核模块版本(排查版本冲突时常用):
modinfo nvidia | grep version # 输出内核模块版本(需与驱动版本匹配)
三、进阶监控工具(实时性能分析)
1. nvtop(类 htop 的 GPU 监控工具)
命令行交互式工具,可视化展示 GPU 利用率、显存占用、温度、功率等,支持多卡同时监控,界面友好。
安装与使用:
sudo apt update
sudo apt install nvtop # 安装
nvtop # 启动,按上下键切换 GPU,按 q 退出
2. gpustat(轻量级命令行监控)
简洁的 Python 工具,输出 GPU 状态摘要(适合脚本或快速查看)。
安装与使用:
pip install gpustat # 需先安装 Python 和 pip
gpustat # 查看当前状态
gpustat -i 1 # 每秒刷新一次
3. nvidia-smi dmon(NVIDIA 设备监控)
官方提供的设备级监控工具,实时输出 GPU 利用率、内存使用率、温度、功率等详细指标(适合调试):
nvidia-smi dmon # 实时监控,按 Ctrl+C 退出
四、配置与管理工具
1. nvidia-xconfig(X 服务器配置)
用于生成或修改 Xorg 配置文件,尤其适合多卡显示输出场景(如双卡连接多显示器):
sudo nvidia-xconfig # 生成默认配置
sudo nvidia-xconfig --enable-all-gpus # 启用所有 GPU 用于显示
2. nvidia-persistenced(保持 GPU 持续供电)
在服务器环境中,保持 GPU 处于活跃状态(避免休眠导致的延迟),默认随驱动启动,可手动管理:
sudo systemctl status nvidia-persistenced # 查看状态
sudo systemctl start nvidia-persistenced # 启动服务
总结
- 快速查看:优先用
nvidia-smi或gpustat - 实时监控:推荐
nvtop(可视化)或nvidia-smi -l 1(简单刷新) - 图形化配置:用
nvidia-settings - 硬件识别:
lspci | grep -i nvidia(驱动异常时也能工作)
这些工具均依赖 NVIDIA 驱动正常安装,若 nvidia-smi 仍报错,需先解决驱动版本匹配问题(参考之前的步骤)。

4362

被折叠的 条评论
为什么被折叠?



