GPU服务器崩溃问题排查（1）

原创已于 2025-03-05 14:35:11 修改 · 574 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#服务器 #运维 #linux

于 2025-03-05 14:32:56 首次发布

数据中心运维实战专栏收录该内容

23 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一台服务器在运行使用中失联，通过BMC远程kvm查看界面卡死，屏幕显示如下信息：
在这里插入图片描述
从提供的日志来看，服务器可能因为内核崩溃（kernel panic）而失联。日志中的 ---[ end trace f6f982abafac13ee ]--- 以及 RIP: 0010:ceph_set_page_dirty+0x1ba/0x1c0 [ceph] 表明问题可能与 Ceph 文件系统相关。

可能的原因：

Ceph 文件系统问题

ceph_set_page_dirty 这个函数在 Ceph 相关模块中，可能是由于 Ceph 存储故障、磁盘损坏或 Ceph 客户端 BUG 造成的崩溃。

硬件问题

CR2:0000000000000070 可能表示空指针引用（NULL pointer dereference），通常是由于内存错误或者驱动程序错误导致的。

驱动模块冲突

日志显示 NVIDIA、Mellanox（mlx）、RDMA 相关模块，如果这些驱动有冲突，可能导致系统崩溃。
nvidia_uvm(OE), mlx5_ib(OE), ib_uverbs(OE) 等模块加载了，可能是 Mellanox RDMA 设备或者 NVIDIA 相关模块导致的。

内存或 I/O 设备故障

EFLAGS: 00010246 和 CR3: 00000000002Ca8002 可能表明 CPU 访问了无效的内存地址。

处理方法

短期恢复

重启服务器

由于 KVM 界面卡死，建议通过 BMC（iLO/IPMI/Redfish）远程执行冷重启（Power Cycle）。
如果 BMC 也无法操作，可能需要物理断电后重启。

进入救援模式

如果系统仍然崩溃，可以尝试进入单用户模式或 Live CD 进行检查。

长期修复

检查系统日志

进入系统后，查看 /var/log/messages 或 journalctl -xe 找到崩溃前的详细信息：

journalctl -k -b -1

（查看上次崩溃前的日志）

检查 Ceph 相关问题

运行：

dmesg | grep -i ceph

确保 Ceph 客户端和集群运行正常，检查 ceph status。

检查硬件

运行内存测试（建议使用 Memtest86+）。
使用 smartctl 检查磁盘健康状态：

smartctl -a /dev/sdX

如果有 Mellanox 设备，检查驱动：

ethtool -i mlx5_core

升级驱动和内核

如果问题出在 Mellanox/NVIDIA 设备，建议更新固件和驱动：

sudo dnf update -y

或者升级到更稳定的 Linux 内核。

如果问题持续出现，可能需要调整 Ceph 配置、替换硬件或联系供应商进行进一步支持。

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

guganly 喜欢就请我喝杯咖啡吧！☕️

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。