Pytorch模型训练出现fd_event_list = self._poll.poll(timeout)问题

最新推荐文章于 2025-02-18 19:00:00 发布

飞机火车巴雷特

最新推荐文章于 2025-02-18 19:00:00 发布

阅读量6.1k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： Python相关文章标签： pytorch

本文链接：https://blog.youkuaiyun.com/qq_36158230/article/details/120720880

Python相关专栏收录该内容

62 篇文章

订阅专栏

本文探讨了在PyTorch模型训练中遇到的卡死问题，分析了可能的原因，涉及数据集大小、Dataloader timeout和算法逻辑错误。解决建议包括检查数据获取逻辑，适当调整worker数量，并强调了正确设计__getitem__方法的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题描述

在使用Pytorch训练模型的时候，程序出现卡死、没反应的现象。当卡到无法令人接受，然后强制终止运行程序的时候，得到以下的终端输出信息：

  xxxxxxxxx
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 435, in __next__
    data = self._next_data()
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 1068, in _next_data
    idx, data = self._get_data()
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 1034, in _get_data
    success, data = self._try_get_data()
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 872, in _try_get_data
    data = self._data_queue.get(timeout=timeout)
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/multiprocessing/queues.py", line 104, in get
    if not self._poll(timeout):
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/multiprocessing/connection.py", line 257, in poll
    return self._poll(timeout)
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/multiprocessing/connection.py", line 414, in _poll
    r = wait([self], timeout)
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/multiprocessing/connection.py", line 911, in wait
    ready = selector.select(timeout)
  File "/home/csx/.conda/envs/py4torch17/lib/python3.6/selectors.py", line 376, in select
    fd_event_list = self._poll.poll(timeout)
KeyboardInterrupt

我称之为"fd_event_list = self._poll.poll(timeout)"问题。

二、原因分析

如果模型没有问题（在一个数据集上能够正常训练，但切换到另一个数据集后出现了这个问题），这很有可能是因为数据集的规模引起的Dataloader加载数据timeout。当然，如果不考虑数据集规模，还有可能就是模型训练的机器性能不够，比如运行内存、显卡内存等，若不够大都有可能出现这个问题，但这个可能性比较小。

作以上的分析，这是因为我通过降低训练数据集的方法，使得程序恢复正常运行，而不至于卡死，一直不动。

后续的更新：表面上的确是数据集的问题，然而后面发现是自己的算法设计上出了逻辑错误（这个才是真正问题），才导致了timeout。问题出在Dataloader中__getitem__(self, idx) 这个方法中，我设置了一个循环，由于一直满足不了条件，导致陷入了死循环，一直获取不了数据，最终timeout。