基本过程
今天实验室师兄在服务器运行深度学习训练时候得到报错CUDA initialization: Unexpected error from cudaGetDeviceCount()疑似Cuda与NVIDIA显卡驱动沟通中出现了问题,使用nvidia-smi指令时提示Failed to initialize NVML: Driver/library version mismatch,经过沟通了解到,重启与重新配置Cuda环境均未能解决上述问题。
根据社区类似问题的帖子下工程师的指引,使用nvidia-bug-report.sh输出了报错的基本日志,得到如下关键信息
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: API mismatch: the client has the version 535.113.01, but
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: this kernel module has the version 525.105.17. Please
Oct 21 06:40:46 ubuntu-C621-WD12-IPMI kernel: [676742.295632] NVRM: make sure that this kern

实验室师兄在服务器运行深度学习训练时,CUDA初始化报错。经排查,问题是Cuda版本自动更新,与NVIDIA显卡驱动版本不匹配。解决方案是将kernel版本升级到535版本,问题得以解决。同时提出在生产环境应避免敏感升级和安装,安装前检查工具链。
最低0.47元/天 解锁文章
2200

被折叠的 条评论
为什么被折叠?



