NVIDIA显卡常用命令

nvidia-smi是NVIDIA显卡提供的命令行工具,用于查看当前系统的GPU状态、显存使用情况、GPU温度、功耗等信息。nvidia-smi常用的命令:

当前系统中GPU的状态信息:

nvidia-smi

当前GPU的显存使用情况:

nvidia-smi --query-gpu=memory.used --format=csv

当前GPU的温度:

nvidia-smi --query-gpu=temperature.gpu --format=csv

当前GPU的功率使用情况:

nvidia-smi --query-gpu=power.draw --format=csv

当前GPU的进程信息:

nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv

这个命令将显示当前正在使用GPU的进程的PID、名称和显存使用量等信息。 还可以使用其他参数来定制nvidia-smi的输出结果和格式,详细的使用方法可以参考nvidia-smi命令的帮助文档

<think>好的,我现在需要帮用户介绍一下NVIDIA在Linux下的相关命令。首先,我要回忆用户之前的问题,他们之前问过银河麒麟服务器系统的网络流量监控,现在转向NVIDIA命令,可能用户是在使用银河麒麟系统,并且需要管理NVIDIA显卡,比如在服务器上进行GPU监控或深度学习任务。 用户的需求可能是多方面的:安装驱动、管理GPU状态、监控性能、配置多GPU等。需要覆盖常用的命令行工具,比如nvidia-smi、nvidia-settings,以及相关的工具如NVML或者CUDA工具包中的命令。同时,考虑到用户可能对Linux环境不太熟悉,需要提供具体的命令示例和解释。 首先,nvidia-smi是最基础的工具,必须详细说明它的各种用法,比如监控GPU状态、查看进程、设置持久模式等。然后,nvidia-settings虽然主要是图形界面,但命令行也有用途,比如配置Xorg设置。接下来可能需要提到驱动安装相关的命令,比如如何安装驱动,使用apt还是runfile,但用户问的是命令,可能安装部分可以简要带过。 另外,用户可能需要进行性能监控,比如温度、功耗,这时候需要介绍nvidia-smi中的相关参数,以及如何持续监控。还有GPU计算相关的命令,比如nvidia-cuda-mps-control,但可能用户较少用到,可以简要提及。 需要注意银河麒麟系统是基于Ubuntu还是CentOS,这可能会影响包管理命令,但用户之前的回答里用的是apt,所以可能基于Ubuntu,因此安装命令用apt。但NVIDIA驱动有时需要从官网下载,所以需要提到两种安装方式。 另外,用户可能需要故障排查的命令,比如模块加载、日志查看,这时候需要涉及内核模块相关命令,如lsmod、dmesg等。同时,持久化设置可能对于服务器环境很重要,避免GPU重置,需要介绍nvidia-smi的持久模式。 最后,整理结构,分章节,确保命令准确,示例正确,给出常见用例,比如监控、配置、安装等。需要检查是否有过时的命令,比如旧版nvidia-smi的选项是否变化,确保信息准确。</think>在Linux系统中管理NVIDIA显卡常用命令和工具如下: --- ### 一、核心管理工具 1. **nvidia-smi(显卡监控与配置)** ```bash nvidia-smi # 基础信息查看(GPU温度/显存/利用率) ``` - 常用参数: ```bash nvidia-smi -q # 显示详细信息(包括ECC错误/电源限制) nvidia-smi -l 2 # 每2秒刷新一次 nvidia-smi -i 0 -pm 1 # 设置GPU0为持久模式(防止驱动休眠) nvidia-smi -rgc # 重置GPU计算进程(针对CUDA异常) ``` 2. **实时监控面板** ```bash watch -n 1 nvidia-smi # 每秒刷新监控数据 ``` --- ### 二、驱动与配置命令 1. **驱动安装** - APT方式(推荐): ```bash sudo apt install nvidia-driver-535 # 指定驱动版本 ``` - 官方.run文件安装: ```bash sudo sh NVIDIA-Linux-x86_64-535.129.03.run --no-opengl-files ``` 2. **驱动管理** ```bash sudo nvidia-uninstall # 卸载驱动 sudo modprobe nvidia # 动态加载内核模块 ``` 3. **Xorg配置** ```bash nvidia-xconfig --cool-bits=28 # 启用超频控制 nvidia-xconfig --connected-monitor=DFP-0 # 指定主显示器 ``` --- ### 三、高级功能命令 1. **多GPU控制** ```bash nvidia-smi -L # 列出所有GPU UUID nvidia-smi -mig 1 # 在A100/H100启用MIG分区 nvidia-smi mig -i 0 -cgi 1g.5gb # 创建1个1g.5gb实例 ``` 2. **性能调节** ```bash sudo nvidia-smi -i 0 -pl 250 # 限制GPU0功耗为250W sudo nvidia-smi -i 0 -ac 3505,1410 # 设置核心/显存频率(A6000为例) ``` 3. **NVML编程接口** ```bash nvidia-smi nvlink -i 0 -sbc # 检查NVLINK状态 nvidia-smi topo -m # 显示GPU拓扑连接 ``` --- ### 四、调试与日志 1. **关键日志文件** ```bash cat /var/log/nvidia-installer.log # 驱动安装日志 dmesg | grep -i nvidia # 内核消息过滤 ``` 2. **故障排查命令** ```bash nvidia-debugdump -l # 列出可用的调试报告 nvidia-bug-report.sh # 生成完整问题报告 ``` --- ### 五、容器与虚拟化 1. **NVIDIA Container Toolkit** ```bash docker run --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi # Docker GPU支持 nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml # 生成CDI规范文件 ``` 2. **vGPU配置(需要许可证)** ```bash sudo nvidia-smi vgpu -i 0 -s 8 # 在GPU0创建8个vGPU sudo nvidia-smi vgpu -i 0 -q # 查询vGPU分配状态 ``` --- ### 六、典型应用场景 | 场景 | 推荐命令组合 | |---------------------|----------------------------------| | 深度学习训练监控 | `watch -n 1 "nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv"` | | 多卡任务分配 | `CUDA_VISIBLE_DEVICES=0,1 python train.py` | | 驱动回滚 | `sudo apt install nvidia-driver-470 && reboot` | | GPU压力测试 | `sudo nvidia-smi -i 0 -r && stress -g 1` | --- ⚠️ **注意事项**: 1. 部分命令需要`sudo`权限 2. 超频操作可能导致硬件损坏(需确认显卡是否解锁) 3. 银河麒麟系统需确认驱动兼容性(建议使用v495+版本驱动)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值