代码踩坑记录

原创已于 2022-04-14 23:10:50 修改 · 461 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#bug

于 2021-11-30 15:45:17 首次发布

报错解决专栏收录该内容

5 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

代码踩坑记录

说明
踩坑记录

说明

本文记录本人在代码编写过程中遇到的种种bug。

踩坑记录

使用 enumerate 遍历 Pytorch Dataset 实例

问题描述：python 中的 enumerate 可以用于迭代遍历一个列表等可以迭代的对象，但如果直接使用 enumearte 遍历 Pytorch 的 Dataset 实例，会出现无法终止迭代的情况。
解决方案：使用 Pytorch 的 DataLoader 封装 Dataset，在使用 enumerate 进行遍历。
原因分析：猜测可能是因为要经过 DataLoader 封装之后，Dataset 才能变成可迭代的对象。(但是为什么 Dataset 不可以迭代？？？却可以使用 for data in dataset: 的形式遍历)

Python 多线程 multiprocessing.Pool(jobs).imap(…) 有bug

问题描述： python 用于多线程的函数中如果涉及 Pytorch 模型的调用，可能会导致线程挂起或阻塞。直观上就是：程序卡住了，如果 Control+C 中断程序会出现类似如下信息：

***
  File "/usr/lib/python3.7/multiprocessing/pool.py", line 746, in next
    item = self._items.popleft()
IndexError: pop from an empty deque

During handling of the above exception, another exception occurred:
***

解决方案：还不会解决，暂时只能不用多线程调用同一个模型。
原因分析：似乎是 python 3.7/3.8 的bug，具体原因未知。可以参见 https://bugs.python.org/issue35629

损失函数出现 nan.

问题描述：在训练深度学习模型的时候，经常出现损失函数为nan.的情况。
解决方案：检查除运算是否会出现除 0 操作；或设置梯度裁剪。
原因分析：可能是在模型中的某一步出现除以0，或者乘上了一个很大的数。如果出现nan不具有随机性，则可以断点调试，看是哪一步开始出现nan；如果具有随机性可以先检查是否可能有除以0的操作，或者消除随机性（模型参数固定、数据读取固定、设置随机种子等），在进行断点调试。

需要梯度更新的变量被更改了 2022.04.14

问题描述：在模型训练时，调用 ***.backward() 之后报错，提示“需要梯度下降的变量被更改”。具体报错信息如下：
```
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: ***
```
解决方案：使用 torch.autograd.set_detect_anomaly(True)可以打印出导致此类问题的具体语句以及调用栈。把相应的内置操作进行修改。
原因分析：通常是因为使用原地操作（或称为inplace operation）修改了需要梯度更新的变量，例如使用了带有下划线的内置函数（scatter_等）或者使用 +=这类内置运算符。尽量避免使用这类操作，例如：使用 scatter而不是 scatter_，使用 a = a + b而不是 a += b。

待续…

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理