ROCm系统日志分析：dmesg与rocm-smi排查GPU故障-优快云博客

ROCm系统日志分析：dmesg与rocm-smi排查GPU故障

在ROCm（Radeon Open Compute Platform）环境中，GPU故障排查需要结合系统日志与专用工具。本文将详细介绍如何通过dmesg命令分析内核日志，以及使用rocm-smi工具监控GPU状态，快速定位和解决常见硬件问题。

dmesg命令用于查看Linux内核环缓冲区信息，包含系统启动时的硬件初始化过程及运行中的错误报告。当GPU出现驱动加载失败、显存错误或PCIe通信问题时，相关日志会实时记录到内核缓冲区。

使用以下命令提取与AMD GPU相关的日志：

dmesg | grep -iE 'amdgpu|rocm|kfd'

常见错误类型及对应日志特征：

rocm-smi（ROCm System Management Interface）是AMD提供的GPU管理工具，可实时监控功耗、温度、显存使用等关键指标，支持查询硬件拓扑和设置性能参数。

查看GPU型号与核心参数：

rocm-smi --showhw

查看系统拓扑结构，识别GPU间连接方式：

rocm-smi --showtopo

连续监控GPU温度与功耗：

rocm-smi -l 1  # 每秒刷新一次

关键监控指标说明：

结合dmesg与rocm-smi确认驱动是否正常加载：

dmesg | grep -i 'amdgpu: module loaded'  # 检查内核模块
rocm-smi --list-gpus                    # 验证GPU识别

若rocm-smi无输出且dmesg显示"kfd module not loaded"，需重新安装ROCm驱动：

sudo apt reinstall rocm-hip-sdk

当GPU发生崩溃时，按以下流程诊断：

dmesg --since "10 minutes ago" | grep -i error

rocm-smi --showpower --showtemp --showmem

若日志显示"thermal throttling"，可通过以下命令降低功耗上限：

rocm-smi --setpowercap 225  # 设置功耗上限为225W

验证GPU间通信带宽，排查PCIe链路问题：

rocm-bandwidth-test

确认GPU固件是否匹配当前驱动版本：

sudo cat /sys/kernel/debug/dri/1/amdgpu_firmware_info

症状：应用运行中突然退出，dmesg显示"uncorrectable ECC error" 解决方案：

症状：分布式训练时出现"RDMA connection timeout" 排查步骤：

建立常态化监控机制：

完整排查工具链参考：ROCm调试工具集

通过本文介绍的方法，可快速定位80%以上的常见GPU硬件故障。对于复杂问题，建议收集完整日志包（包含dmesg输出、rocm-smi -a全量信息及应用崩溃报告）提交AMD支持团队。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考