新建包含cuda和cudnn的docker

本文介绍如何在Ubuntu系统上创建包含CUDA和cuDNN的Docker容器,并配置网络及安装必要的软件包,如Anaconda和字体等。还提供了解决安装过程中遇到的常见问题的方法。
部署运行你感兴趣的模型镜像

背景:服务器的cudnn版本太低了,没有权限去修改。故新建包含cuda和cudnn的docker
步骤

一、拉取镜像及创建docker

  1. 拉取相关的镜像
  2. 根据镜像创建docker
docker run -itd --gpus gpu数量  \
--name=新建docker名 \
--shm-size=指定共享内存大小 \
端口映射
-v 服务器地址:映射地址 镜像名
docker run -itd --gpus 4  \
--name="cuda_1201" \
--shm-size=4g \
-p 38040:38040 -p 38041:38041 -p 38042:38042 \
-v /data/cv:/mount nvidia/cuda:12.0.1-cudnn8-devel-ubuntu20.04

二、docker内配置网络

  1. apt install 无法安装包
    • 备份docker中的source.lst
    • 在docker中执行cp /etc/apt/sources.list /etc/apt/sources.list.bk
    • 清华源下载配置文件
      在这里插入图片描述
  • 根据上述的选项得到的文本,复制到/etc/apt/sources.list
    在这里插入图片描述
  • 在dockers中执行apt updateapt upgrade
    进行完上述步骤后,就可以用apt进行安装包了apt install vim python3 pip3 git
参考链接
  1. CUDA 安装教程
  2. Error response from daemon: manifest for nvidia/cuda:latest not found: manifest unknown: manifest
安装Anaconda以及使conda命令有效
  1. 下载Anaconda。清华源https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive,我这里下载的是Anaconda3-5.1.0-Linux-x86_64.sh
  2. 在docker中执行 bash Anaconda3-5.1.0-Linux-x86_64.sh
  3. 一直enter/yes后,anaconda安装的位置是/root/anaconda3,配置文件所在的位置/root/.bashrc
  4. 使conda命令生效export PATH="/root/anaconda3/bin:$PATH"
  5. 新建conda环境conda create -n bert python=3.8
  6. 激活conda环境source activate bert
docker中安装字体

apt-get update && apt-get install -y fonts-dejavu fonts-liberation fonts-indic
查看本机支持的字体

import matplotlib.font_manager as fm

def list_system_fonts():
    font_list = fm.findSystemFonts(fontpaths=None, fontext='ttf')
    font_names = sorted(set([fm.FontProperties(fname=fname).get_name() for fname in font_list]))
    return font_names
报错1
Solving environment: failed

CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/noarch/repodata.json>
Elapsed: -

An HTTP error occurred when trying to retrieve this URL.
HTTP errors are often intermittent, and a simple retry will get you on your way.
SSLError(MaxRetryError(‘HTTPSConnectionPool(host=‘mirrors.tuna.tsinghua.edu.cn’, port=443): Max retries exceeded with url: /anaconda/pkgs/free/noarch/repodata.json (Caused by SSLError(SSLError(“bad handshake: Error([(‘SSL routines’, ‘ssl3_get_server_certificate’, ‘certificate verify failed’)],)”,),))’,),)
————————————————

修改/root/.bashrc中的内容

参考链接Conda 清华源连接失败原因与解决
解决方案:conda config --set ssl_verify false

  1. 运行conda clean --all
  2. 修改/root/.bashrc为如下内容
show_channel_urls: true
default_channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
ssl_verify: false
报错2

无法创建conda环境
临时禁用SSL验证:注意,这不是推荐的长期解决方案,因为它会降低安全性,但可以帮助诊断问题。在执行conda命令时添加–no-verify-ssl选项,例如:
conda config --set ssl_verify false
在完成你的操作后,记得重新开启SSL验证以保障安全:
conda config --set ssl_verify true
参考链接https://blog.youkuaiyun.com/weixin_44245188/article/details/139768378

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

<think>好的,我现在需要帮助用户解决在conda环境中cudnn未被正确识别的问题,具体是nvcc版本正常但conda list显示unrecognized arguments cudnn。首先,我要分析可能的原因。 用户提到nvcc显示CUDA版本是11.6,而torch的CUDA版本是12.1,这说明版本不一致,这可能导致cudnn无法正确识别。根据引用[3],版本不一致是常见的问题来源。所以第一步应该检查CUDAPyTorch版本是否匹配。 接下来,用户可能在conda环境中错误地安装cudnn,或者使用了不兼容的安装命令。例如,直接使用conda install cudnn可能没有指定正确的版本或渠道。这时候需要确认安装命令是否正确,比如使用conda install -c conda-forge cudnn或者指定版本号。 另外,conda的配置可能有问题,比如镜像源设置不正确,导致安装时拉取不到正确的包。引用[2]提到可以添加清华的镜像源,但用户如果之前配置了错误的源,可能需要先删除再重新配置。可以建议用户检查conda的channel配置,使用conda config --remove-key channels恢复默认,再添加合适的源。 还有可能cudnn没有正确链接到CUDA路径。需要检查环境变量,如LD_LIBRARY_PATH是否包含CUDAcudnn的库路径。用户可能需要手动添加这些路径,或者重新安装cudnn以确保文件被正确放置。 最后,如果上述方法都无效,可能需要创建一个新的conda环境,重新安装所有依赖,确保版本一致性。或者考虑使用Docker容器来管理环境,避免系统级别的冲突。 总结可能的解决方案步骤:检查版本匹配、正确安装cudnn、配置conda源、检查环境变量、创建新环境或使用Docker。同时需要根据用户的具体情况调整建议,比如用户提到的路径问题(引用[4])可能需要检查文件权限或路径设置是否正确。</think>### 解决方案:Conda环境中cudnn未被正确识别的排查与修复 #### 1. **检查CUDA与PyTorch版本一致性** - **现象分析**:若`nvcc -V`显示CUDA版本为11.6,而`torch.version.cuda`显示12.1,则版本不匹配会导致cudnn无法识别[^3]。 - **解决方法**: - 卸载当前PyTorch: ```bash conda remove pytorch torchvision torchaudio ``` - 安装CUDA 11.6匹配的PyTorch: ```bash conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch ``` #### 2. **正确安装cudnn** - **错误原因**:直接使用`conda list cudnn`可能因参数错误或未安装导致报错。 - **操作步骤**: 1. 通过conda-forge渠道安装cudnn: ```bash conda install -c conda-forge cudnn=8.2.1 ``` 2. 验证安装: ```bash conda list | grep cudnn ``` #### 3. **配置conda镜像源** - **问题背景**:镜像源配置错误可能导致依赖解析失败[^2]。 - **修复方法**: - 删除现有配置: ```bash conda config --remove-key channels ``` - 添加清华镜像源: ```bash conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ ``` #### 4. **检查环境变量与路径** - **关键路径**:确保`LD_LIBRARY_PATH`包含CUDAcudnn的库路径,例如: ```bash export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64:$LD_LIBRARY_PATH ``` - **验证命令**: ```bash echo $LD_LIBRARY_PATH ``` #### 5. **创建新环境或使用Docker** - **环境隔离**:若问题持续,建议新建conda环境: ```bash conda create -n new_env python=3.8 conda activate new_env ``` - **Docker方案**:通过预装CUDA的镜像避免依赖冲突,例如: ```dockerfile FROM nvidia/cuda:11.6.0-base ``` --- ###
评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值