部署k8s时其中一台机器ubuntu20.04无法获取到显卡数据,其他ubuntu16.04机器可以正常获取显卡数据
主机上可以正常看到显卡信息

1.查看pod日志
错误:Failed to initialize NVML: could not load NVML library.

2.进入docker
单独启动报同样的错

看一下nvidia-smi
找不到libnvidia-ml.so错误

加载这个库启动libnvidia-ml.so 试试
成功起来

3.猜测原因可能是docker在ubuntu20.04上运行没有价值nvidia相关的库,考虑启动前先执行ldconfig加载库
4.修改nvidia-device-plugin的yml 文件的启动方式启动前先执行ldconfig

5.重新部署后正常
本文解决了一台Ubuntu 20.04机器在Kubernetes集群中无法获取显卡数据的问题。通过调整Docker配置及nvidia-device-plugin的YAML文件,最终实现了GPU资源的有效利用。
1558

被折叠的 条评论
为什么被折叠?



