pytorch无法把共享内存写入文件

最新推荐文章于 2025-06-21 23:31:57 发布

原创

最新推荐文章于 2025-06-21 23:31:57 发布 · 1.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python

环境：

在容器中跑pytorch模型的训练

问题表现：

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).
Traceback (most recent call last):
File "/root/anaconda3/lib/python3.8/multiprocessing/queues.py", line 239, in _feed
obj = _ForkingPickler.dumps(obj)
File "/root/anaconda3/lib/python3.8/multiprocessing/reduction.py", line 51, in dumps
cls(buf, protocol).dump(obj)
File "/root/anaconda3/lib/python3.8/site-packages/torch/multiprocessing/reductions.py", line 358, in reduce_storage
fd, size = storage._share_fd_cpu_()
RuntimeError: unable to write to file </torch_27822_2114653298_869>: No space left on device (28)

问题原因：

torch.utils.data.dataloader使用了共享内存。容器根目录没有空间，导致共享内存写到文件的时候报错。

解决方案，dataloader不使用共享内存：