nvidia-ctk安装与docker容器找不到gpu设备问题处理

原创

已于 2025-09-02 11:34:17 修改 · 551 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#docker #容器 #运维 #gpu算力

于 2025-07-31 15:53:02 首次发布

摘要

本文深入探讨了 Docker 容器在长时间运行后，出现 nvidia-smi 找不到 GPU 设备或应用（如 gpustack）提示 GPU 资源掉线的疑难问题。文章分析了问题产生的根本原因，并提供了一套完整、稳健的解决方案：通过正确安装 NVIDIA Container Toolkit (nvidia-ctk)，并创建持久化的 GPU 设备符号链接，从而确保容器内 GPU 资源的长期稳定可用。

一、问题背景与根源分析

在生产环境中，我们经常会遇到一些奇怪的现象：一个配置了 GPU 资源的 Docker 容器，在启动初期运行正常，但经过数小时或数天后，容器内的应用程序突然无法访问 GPU，执行 nvidia-smi 命令会报 “Failed to initialize NVML: Unknown Error” 的错误。然而，一旦重启容器，一切又恢复正常。

这个问题在长时间运行的 GPU 计算服务（如 AI 推理、数据分析平台 gpustack 等）中尤为突出，严重影响了服务的稳定性。

经过深入研究发现，这个问题的根源在于新版本的容器运行时（如 runc）与 NVIDIA 驱动交互机制的变更。具体来说：

依赖于 systemd cgroup 管理：当使用 systemd 作为 cgroup 驱动时，容器对设备的访问会受到更严格的管理。
缺少设备符号链接：新版 runc 要求所有注入到容器的设备节点，在主机的 /dev/char 目录下都存在对应的符号链接。
驱动默认行为：NVIDIA 的部分驱动版本默认不会自动创建这些所需的符号链接。

因此，当系统服务状态发生变化（例如执行了 systemctl daemon-reload 命令

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。