在执行docker run --gpus 的时候报错,是因为重装显卡驱动后导致不可用,重新安装一遍NVIDIA Container Toolkit 即可解决问题
问题:
root@itserver03:/home/develop# docker run -itd --gpus all -p 8000:8000 -v /u01/workspace/models:/u01/workspace/models qingcloudtech/cogvlm:v1.1
bd0d38517f56afeecd2a6156bd8a3cd754e646999fad9a347d49cdc243f87341
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
解决方式:
https://blog.youkuaiyun.com/tanlintanlin/article/details/138597128?spm=1001.2014.3001.5501
Ubuntu下安装部署
第一步:配置仓库
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
第二步:下载安装
#更新
sudo apt update
#安装nvidia-container-toolkit
sudo apt install nvidia-container-toolkit
第三步,配置运行
注意: 如果容器用是containerd: 请使用
sudo nvidia-ctk runtime configure --runtime=containerd
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
第四步:验证
注意上面只是安装了一个NVIDIA Container Toolkit生成器,如果希望生成各种版本的cuda镜像,需要下面语句:
docker run --gpus all --rm nvidia/cuda:9.0-base nvidia-smi
或
docker run --gpus all --rm nvidia/cuda:11.0-base nvidia-smi
第五步:检查images
docker images
可以看到生成的镜像。