代码踩坑记录

说明

本文记录本人在代码编写过程中遇到的种种bug。

踩坑记录

使用 enumerate 遍历 Pytorch Dataset 实例

  1. 问题描述:python 中的 enumerate 可以用于迭代遍历一个列表等可以迭代的对象,但如果直接使用 enumearte 遍历 Pytorch 的 Dataset 实例,会出现无法终止迭代的情况。
  2. 解决方案:使用 Pytorch 的 DataLoader 封装 Dataset,在使用 enumerate 进行遍历。
  3. 原因分析:猜测可能是因为要经过 DataLoader 封装之后,Dataset 才能变成可迭代的对象。(但是为什么 Dataset 不可以迭代???却可以使用 for data in dataset: 的形式遍历)

Python 多线程 multiprocessing.Pool(jobs).imap(…) 有bug

  1. 问题描述: python 用于多线程的函数中如果涉及 Pytorch 模型的调用,可能会导致线程挂起或阻塞。直观上就是:程序卡住了,如果 Control+C 中断程序会出现类似如下信息:
    ***
      File "/usr/lib/python3.7/multiprocessing/pool.py", line 746, in next
        item = self._items.popleft()
    IndexError: pop from an empty deque
    
    During handling of the above exception, another exception occurred:
    ***
    
  2. 解决方案还不会解决,暂时只能不用多线程调用同一个模型
  3. 原因分析:似乎是 python 3.7/3.8 的bug,具体原因未知。可以参见 https://bugs.python.org/issue35629

损失函数出现 nan.

  1. 问题描述:在训练深度学习模型的时候,经常出现损失函数为nan.的情况。
  2. 解决方案:检查除运算是否会出现除 0 操作;或设置梯度裁剪。
  3. 原因分析:可能是在模型中的某一步出现除以0,或者乘上了一个很大的数。如果出现nan不具有随机性,则可以断点调试,看是哪一步开始出现nan;如果具有随机性可以先检查是否可能有除以0的操作,或者消除随机性(模型参数固定、数据读取固定、设置随机种子等),在进行断点调试。

需要梯度更新的变量被更改了 2022.04.14

  1. 问题描述:在模型训练时,调用 ***.backward() 之后报错,提示“需要梯度下降的变量被更改”。具体报错信息如下:
    RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: ***
    
  2. 解决方案:使用 torch.autograd.set_detect_anomaly(True)可以打印出导致此类问题的具体语句以及调用栈。把相应的内置操作进行修改。
  3. 原因分析:通常是因为使用原地操作(或称为inplace operation)修改了需要梯度更新的变量,例如使用了带有下划线的内置函数(scatter_等)或者使用 +=这类内置运算符。尽量避免使用这类操作,例如:使用 scatter而不是 scatter_,使用 a = a + b而不是 a += b

待续…

### Detectron2 使用过程中的常见问题与解决方案 #### 一、编译错误 当尝试编译 Detectron2 的自定义操作时,可能会遇到 `nvcc.exe` 编译失败的情况。具体表现为以下错误消息: ``` error: command 'C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin\nvcc.exe' failed with exit status 1 ``` 此问题是由于 CUDA 版本不兼容或者某些代码逻辑不符合当前环境所致[^3]。 **解决方法:** 可以修改相关源码文件以适配当前环境。例如,在路径 `detectron2/layers/csrc/nms_rotated/` 下的 `nms_rotated_cuda.cu` 文件中,注释掉可能导致冲突的部分代码片段。以下是具体的代码调整示例: ```cpp // 注释掉可能引发问题的代码段 /* if (condition) { // 可能存在版本差异的实现细节 } */ ``` 通过上述方式能够有效规避因 CUDA 工具链版本不同而导致的编译异常。 --- #### 二、CUDA 和 cuDNN 配置不当 在 Windows 系统上安装 PyTorch 或其扩展库(如 torch-scatter)并集成到 Detectron2 中时,可能出现 CUDA 或 cuDNN 不匹配的问题。典型表现形式为运行时报错提示找不到特定函数或动态链接库加载失败[^1]。 **解决策略:** 确认所使用的 CUDA 和 cuDNN 版本是否满足官方文档的要求,并重新构建依赖关系树。推荐按照以下步骤验证环境一致性: - 安装与目标框架相适应的基础组件; - 测试基础张量运算功能正常运作后再引入高级模块。 --- #### 三、模型推理阶段性能优化不足 对于大规模数据集上的实时处理需求而言,默认参数设置下的速度往往难以达到预期效果[^2]。 **改进措施:** 针对硬件资源特性定制化调优方案,比如启用混合精度训练(Mixed Precision Training),减少内存占用的同时提升计算效率;另外还可以考虑利用 TensorRT 进行进一步加速部署流程。 --- #### 四、多机分布式训练同步障碍 跨节点间通信延迟过高会显著降低整体收敛速率甚至造成死锁现象发生。 **应对之策:** 合理规划网络拓扑结构以及选用高效的集合通讯算法来最小化交互开销;同时也要注意检查防火墙规则以免意外阻断必要的端口连接请求。 --- ### 总结 以上列举了几类较为常见的 Detectron2 实践难题及其对应的处置建议。实际开发过程中还需依据具体情况灵活运用这些技巧加以克服困难。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值