CUDNN与CUDA的踩坑与记录

CUDNN与CUDA的踩坑与记录

CUDA的安装

  1. nvidia-smi看显卡驱动能够安装的最高版本的CUDA
  2. 下载CUDA–>点击
  3. 安装过程去掉显卡驱动
  4. 安装完成的结果如下:
    ===========
    = Summary =
    ===========
    
    Driver:   Not Selected
    Toolkit:  Installed in /usr/local/cuda-10.2/
    Samples:  Installed in /home/gsh/, but missing recommended libraries
    
    Please make sure that
    -   PATH includes /usr/local/cuda-10.2/bin
    -   LD_LIBRARY_PATH includes /usr/local/cuda-10.2/lib64, or, add /usr/local/cuda-10.2/lib64 to /etc/ld.so.conf and run ldconfig as root
    
    To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-10.2/bin
    
    Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-10.2/doc/pdf for detailed information on setting up CUDA.
    ***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 440.00 is required for CUDA 10.2 functionality to work.
    To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
       sudo <CudaInstaller>.run --silent --driver
    
    Logfile is /var/log/cuda-installer.log
    
    
    1. 配置环境变量
      export PATH=/usr/local/cuda-10.2/bin:$PATH
      export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
      export PATH=/usr/bin:$PATH
      source .bashrc
      注意这里的cuda是cuda-10.2,带着版本号,不是那个软连接cuda
    2. 验证:nvcc -V

CUDNN的安装

  1. 下载CUDNN–>点击
    在这里插入图片描述

  2. 安装文档在这里–>>点击

  3. 记得加上对应的版本号

    $ sudo cp ./include/cudnn*.h /usr/local/cuda-11.6/include 
    $ sudo cp -P ./lib/libcudnn* /usr/local/cuda-11.6/lib64 
    $ sudo chmod a+r /usr/local/cuda-11.6/include/cudnn*.h /usr/local/cuda-11.6/lib64/libcudnn*
    

CUDA的删除

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-10.2/bin

CUDNN的删除

把cuda的文件删了就行了

检测一下

darknet网络–>>点击

./darknet detector demo cfg/coco.data cfg/yolov3.cfg yolov3.weights

### Detectron2 使用过程中的常见问题解决方案 #### 一、编译错误 当尝试编译 Detectron2 的自定义操作时,可能会遇到 `nvcc.exe` 编译失败的情况。具体表现为以下错误消息: ``` error: command 'C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin\nvcc.exe' failed with exit status 1 ``` 此问题是由于 CUDA 版本不兼容或者某些代码逻辑不符合当前环境所致[^3]。 **解决方法:** 可以修改相关源码文件以适配当前环境。例如,在路径 `detectron2/layers/csrc/nms_rotated/` 下的 `nms_rotated_cuda.cu` 文件中,注释掉可能导致冲突的部分代码片段。以下是具体的代码调整示例: ```cpp // 注释掉可能引发问题的代码段 /* if (condition) { // 可能存在版本差异的实现细节 } */ ``` 通过上述方式能够有效规避因 CUDA 工具链版本不同而导致的编译异常。 --- #### 二、CUDAcuDNN 配置不当 在 Windows 系统上安装 PyTorch 或其扩展库(如 torch-scatter)并集成到 Detectron2 中时,可能出现 CUDAcuDNN 不匹配的问题。典型表现形式为运行时报错提示找不到特定函数或动态链接库加载失败[^1]。 **解决策略:** 确认所使用的 CUDAcuDNN 版本是否满足官方文档的要求,并重新构建依赖关系树。推荐按照以下步骤验证环境一致性: - 安装目标框架相适应的基础组件; - 测试基础张量运算功能正常运作后再引入高级模块。 --- #### 三、模型推理阶段性能优化不足 对于大规模数据集上的实时处理需求而言,默认参数设置下的速度往往难以达到预期效果[^2]。 **改进措施:** 针对硬件资源特性定制化调优方案,比如启用混合精度训练(Mixed Precision Training),减少内存占用的同时提升计算效率;另外还可以考虑利用 TensorRT 进行进一步加速部署流程。 --- #### 四、多机分布式训练同步障碍 跨节点间通信延迟过高会显著降低整体收敛速率甚至造成死锁现象发生。 **应对之策:** 合理规划网络拓扑结构以及选用高效的集合通讯算法来最小化交互开销;同时也要注意检查防火墙规则以免意外阻断必要的端口连接请求。 --- ### 总结 以上列举了几类较为常见的 Detectron2 实践难题及其对应的处置建议。实际开发过程中还需依据具体情况灵活运用这些技巧加以克服困难。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值