记一次服务器Cuda驱动崩溃修复过程

最新推荐文章于 2025-06-12 14:52:21 发布

原创

最新推荐文章于 2025-06-12 14:52:21 发布 · 743 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#运维 #服务器

实验室师兄在服务器运行深度学习训练时，CUDA初始化报错。经排查，问题是Cuda版本自动更新，与NVIDIA显卡驱动版本不匹配。解决方案是将kernel版本升级到535版本，问题得以解决。同时提出在生产环境应避免敏感升级和安装，安装前检查工具链。

基本过程

今天实验室师兄在服务器运行深度学习训练时候得到报错CUDA initialization: Unexpected error from cudaGetDeviceCount()疑似Cuda与NVIDIA显卡驱动沟通中出现了问题，使用nvidia-smi指令时提示Failed to initialize NVML: Driver/library version mismatch，经过沟通了解到，重启与重新配置Cuda环境均未能解决上述问题。

根据社区类似问题的帖子下工程师的指引，使用nvidia-bug-report.sh输出了报错的基本日志，得到如下关键信息

Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: API mismatch: the client has the version 535.113.01, but
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: this kernel module has the version 525.105.17. Please
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: make sure that this kern