ubuntu20.04 k8s nvidia-device-plugin: failed to initialize NVML

本文解决了一台Ubuntu 20.04机器在Kubernetes集群中无法获取显卡数据的问题。通过调整Docker配置及nvidia-device-plugin的YAML文件,最终实现了GPU资源的有效利用。
部署运行你感兴趣的模型镜像

部署k8s时其中一台机器ubuntu20.04无法获取到显卡数据,其他ubuntu16.04机器可以正常获取显卡数据

主机上可以正常看到显卡信息

 

1.查看pod日志

错误:Failed to initialize NVML: could not load NVML library.

 

2.进入docker

单独启动报同样的错

看一下nvidia-smi

找不到libnvidia-ml.so错误

 

 

加载这个库启动libnvidia-ml.so 试试

成功起来

3.猜测原因可能是docker在ubuntu20.04上运行没有价值nvidia相关的库,考虑启动前先执行ldconfig加载库 

4.修改nvidia-device-plugin的yml 文件的启动方式启动前先执行ldconfig

 5.重新部署后正常

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

Ubuntu 20.04 系统中遇到 `nvidia-smi: command not found` 错误,通常意味着 NVIDIA 驱动未正确安装,或者系统环境变量未配置好以识别 `nvidia-smi` 命令。 ### 1. 检查 NVIDIA 驱动是否已安装 运行以下命令来确认系统是否已经识别到 NVIDIA 显卡驱动: ```bash lspci | grep -i nvidia ``` 如果输出包含 NVIDIA 设备信息,则表示硬件正常,但可能驱动未安装或未加载。可尝试手动安装 NVIDIA 驱动。 ### 2. 安装 NVIDIA 驱动 可以通过以下方式安装适合当前显卡型号的驱动: #### 使用官方推荐方法手动安装 前往 [NVIDIA 官网](https://www.nvidia.cn/Download/index.aspx?lang=cn) 下载对应显卡型号的驱动程序,并按照步骤进行安装。一般流程如下: 1. 禁用 Nouveau 开源驱动。 2. 切换至字符终端(Ctrl+Alt+F3)并停止图形界面。 3. 赋予驱动文件执行权限并运行安装脚本: ```bash chmod +x NVIDIA-Linux-x86_64-<version>.run sudo ./NVIDIA-Linux-x86_64-<version>.run ``` #### 使用 apt 安装(适用于快速部署) 也可以使用 Ubuntu 官方仓库提供的 NVIDIA 驱动版本进行安装: ```bash sudo ubuntu-drivers autoinstall ``` 安装完成后重启系统,并再次尝试运行 `nvidia-smi` 命令。 ### 3. 添加环境变量(可选) 如果驱动已安装但仍然提示找不到 `nvidia-smi`,则可能是 `/usr/bin` 或 `/usr/local/nvidia/bin` 未包含在 `PATH` 中。可在 `.bashrc` 文件中添加路径: ```bash export PATH=/usr/local/nvidia/bin:$PATH source ~/.bashrc ``` ### 4. Docker 环境下使用 `nvidia-smi` 若用户是在 Docker 容器内运行 `nvidia-smi` 并提示命令未找到,则需要确保容器支持 GPU 访问。可以运行以下命令测试 NVIDIA 容器工具是否正常工作: ```bash sudo docker run --rm --gpus all nvidia/cuda:11.0.3-base nvidia-smi ``` 如果该命令成功显示 GPU 信息,则说明 NVIDIA Container Toolkit 已正确安装;否则需重新安装相关组件。 ### 5. 其他问题排查 - 若出现 `Failed to initialize NVML: Unknown Error`,可能与驱动损坏或冲突有关,建议卸载现有驱动后重新安装[^4]。 - 如果 `/usr/bin/nvidia-smi` 报错“No such file or directory”,则表明驱动安装不完整,应检查安装日志并修复。 ---
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值