ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memor

最新推荐文章于 2024-08-07 09:58:29 发布

原创最新推荐文章于 2024-08-07 09:58:29 发布 · 2.3k 阅读

1 ·

CC 4.0 BY-SA版权

PyTorch 专栏收录该内容

7 篇文章

订阅专栏

在运行增强深度残差网络（EDSR）代码时遇到错误，通过调整数据加载器的参数num_workers为0，成功解决了问题，确保了代码的正常运行。

部署运行你感兴趣的模型镜像

运行EDSR代码时，出现如下错误：

解决方案：

           dataloader.DataLoader(
                    testset,
                    batch_size=1,
                    shuffle=False,
                    pin_memory=not args.cpu,
                    num_workers=0,
                )

设置num_worker=0

问题解决

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python系列（亲测有效）：RuntimeError: unexpected EOF, expected 73963 more bytes. The file might be corrup解决方案

weixin_54626591的博客

05-21

2097

RuntimeError: unexpected EOF, expected 73963 more bytes. The file might be corrup解决方案

RuntimeError: unexpected EOF, expected 73963 more bytes. The file might be corrupted.解决方案

1 条评论

温雾染 2020.03.26
用了不行还是报这个错

Docker中使用pytorch报错ERROR: Unexpected bus error encountered in worker. This might be caused by insuffi

Muzythoof的博客

03-04

2524

@[TOC](Docker中使用pytorch报错ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).) 问题原因由于docker中shm内存不足，导致pytorch调用Dataloader时报错。 Please note that PyTorch uses shared memory to share data between process

[已解决]ERROR: Unexpected bus error encountered in worker. This might be caused by......

qq_41855453的博客

04-21

3781

【代码】[已解决]ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memo

u013823233的专栏

09-23

1万+

今天在Docker中运行Pytorch程序是出现了这个错误： ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm). 问题原因： Please note that PyTorch uses shared memory to sh...

Docker ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient share

q742971636的博客

08-10

488

利用–shm-size参数： docker run -it --shm-size="6g" ubuntu

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memor...

牛奔的博客

07-25

1254

报错 ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm). 问题原因在 PyTorch 中使用 DataLoader 加载数据集的时候，由于使用多进程加载数据能够提升模型训练的速度。在物理机上面运行没有任务问题，但是在 Docker...

docker ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient share

qq_45968393的博客

03-08

596

再重新启动一个容器，新增一个增加共享内存的参数。docker 默认共享内存为64M。在深度学习训练过程中遇到报错。遇到共享内存不足的情况，先。

【deepspeed】Unexpected bus error encountered in worker. This might be caused by insufficient shared

测试人的成长日志

07-25

258

解决办法参考了网友的建议，拉docker的时候增加了参数--shm-size 8G，增大了内存，确实有效，感谢分享，特地记录下，以备后续查阅docker run --gpus all --name 0725test --shm-size 8G -v /mnt:/mnt -it nvidia/cuda:11.7.1-devel-ubuntu20.04-deepspeed /bin/bash参考链接：ERROR: Unexpected bus error encountered in worker. Th

Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)

吉米_王

10-24

671

容器共享内存资源不足

ERROR:Unexpected bus error encountered in worker. This might be caused by insufficient shared memory

AmbitiousTyj的博客

09-05

599

先关闭docker容器与docker服务，进入到宿主机/var/lib/docker/containers目录，找到对应容器id的目录，修改hostconfig.json，将ipc mode由原来的private修改为host，然后保存，重启docker服务与docker容器，再运行程序，发现可以正常训练，解决。注：容器的hostconfig.json里面存放的是已有容器的配置，而在以后新建容器时可以直接实现设置好相关参数，从源头上避免再次出现此类问题。

关于训练unet时报错： Unexpected bus error encountered in worker. This might be caused by insufficient shared

Qiuiue61的博客

08-07

703

ops_request_misc=&request_id=&biz_id=102&utm_term=Unexpected%20bus%20error%20encounter&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-130280934.142^v100^pc_search_result_base3&spm=1018.2226.3001.4187)]2. 降低num_workers的大小。

ERROR: Unexpected bus error encountered in worker

qq_43637841的博客

02-21

472

DataLoader worker (pid xxx) is killed by signal: Bus error.

Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).

最新发布

07-17

<think>我们正在处理用户遇到的错误："Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)"。这个错误通常发生在使用PyTorch的DataLoader进行多进程数据加载时，因为Docker容器默认的共享内存大小（64MB）不足。根据引用[1][2][3][4]，我们可以确定错误的原因是共享内存不足。解决方案是增加Docker容器的共享内存大小。引用[3]提供了一种修改方法：通过修改容器的hostconfig.json文件来增加shm-size。具体步骤如下： 1. 找到容器ID：`docker ps -a` 2. 获取容器的完整ID：`docker inspect <容器ID> | grep Id`，得到长ID（如7331d7806ecd42bf6490c6e0aa2a631f9bd66694f97c9ac91d77b9b1240f52c2） 3. 停止Docker服务：`systemctl stop docker` 或 `service docker stop` 4. 进入容器配置目录：`cd /var/lib/docker/containers/<长ID>` 5. 编辑hostconfig.json文件：找到`ShmSize`项，将其修改为更大的值，例如8GB：`"ShmSize": 8589934592` 6. 重启Docker：`systemctl restart docker` 7. 启动容器：`docker start <容器ID>` 8. 进入容器：`docker exec -it <容器ID> /bin/bash` 引用[4]提供了另一种更简单的方法：在运行容器时通过`--shm-size`参数指定共享内存大小，例如： `docker run --shm-size=8g ...` 或者使用`--ipc=host`参数，使用宿主机的共享内存命名空间（注意安全风险）： `docker run --ipc=host ...` 另外，在构建镜像时（Dockerfile）无法直接设置shm-size，需要在运行容器时设置。因此，我们给用户的解决方案有两种：方法一：在运行容器时直接指定共享内存大小（推荐，无需修改配置文件）方法二：修改已存在容器的配置（需要重启docker服务，稍微麻烦）我们推荐方法一，因为更简单且不需要停止docker服务。下面我们给出具体步骤： 1. 如果容器尚未运行，使用以下命令运行： `docker run --shm-size=8g -it your_image_name` 2. 如果容器已经在运行，需要先停止并删除容器，然后重新运行（注意备份容器内数据）： `docker stop <容器ID>` `docker rm <容器ID>` `docker run --shm-size=8g -it ... (原来的运行参数)` 3. 或者，如果不想删除容器，也可以采用修改hostconfig.json的方法（如引用[3]），但注意修改前停止docker服务，修改后重启docker服务。另外，引用[5]是一个Dockerfile的示例，但其中并没有设置共享内存，所以运行该镜像时仍然需要指定`--shm-size`。最后，我们还可以建议用户检查PyTorch DataLoader的num_workers设置，如果设置过高，即使增加了shm也可能不够，可以适当降低num_workers的值。因此，总结解决方案： 1. 在运行容器时增加`--shm-size=8g`（根据需求调整大小，比如2g、4g等） 2. 或者使用`--ipc=host`（共享主机IPC命名空间，注意安全性） 3. 适当降低num_workers的数量（在PyTorch代码中设置）注意：在Docker Compose中，可以在yaml文件中指定shm_size： ```yaml services: your_service: ... shm_size: '8gb' ``` 现在，我们按照要求生成相关问题： 1. 如何在不删除现有容器的情况下增加Docker容器的共享内存？ 2. 在Docker Compose中如何设置共享内存大小？ 3. 除了增加共享内存，还有哪些方法可以避免PyTorch DataLoader出现总线错误？ 4. 使用`--ipc=host`参数有什么风险？注意：回答中引用的段落末尾添加引用标识，例如[^3]。</think>### Docker共享内存不足导致的PyTorch总线错误解决方案当在Docker容器中运行PyTorch程序时，出现`Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)`错误，表明容器分配的共享内存不足。以下是详细解决方案： #### 原因分析 PyTorch的`DataLoader`使用共享内存（shm）在多进程间高效传递数据。Docker默认仅分配64MB共享内存，当数据集较大或`num_workers`较多时，会导致内存溢出[^1][^4]。 --- ### 解决方法 #### ✅ 方法1：启动容器时指定共享内存大小（推荐） ```bash docker run --shm-size=8g -it your_image_name ``` - `--shm-size=8g`：分配8GB共享内存（根据需求调整） - 优点：无需修改容器配置，立即生效[^4] #### ✅ 方法2：修改运行中容器的配置 1. 获取容器ID： ```bash docker ps -a ``` 2. 停止Docker服务： ```bash sudo systemctl stop docker ``` 3. 编辑容器配置文件： ```bash cd /var/lib/docker/containers/<容器长ID> sudo vi hostconfig.json ``` 修改`ShmSize`值（单位字节）： ```json "ShmSize": 8589934592 // 8GB ``` 4. 重启服务并启动容器： ```bash sudo systemctl restart docker docker start <容器ID> docker exec -it <容器ID> /bin/bash ``` #### ✅ 方法3：使用Docker Compose 在`docker-compose.yml`中添加： ```yaml services: your_service: shm_size: '8gb' ``` #### ✅ 替代方案：共享主机IPC命名空间 ```bash docker run --ipc=host -it your_image_name ``` - ⚠️ 注意：这会降低容器隔离性，仅限安全环境使用[^4] --- ### 验证方法进入容器执行： ```bash df -h /dev/shm ``` 输出示例： ``` Filesystem Size Used Avail Use% Mounted on shm 8.0G 0 8.0G 0% /dev/shm ``` --- ### 预防建议 1. **降低`num_workers`**：在PyTorch代码中减少数据加载进程数 ```python DataLoader(dataset, num_workers=2) # 替代默认值 ``` 2. **优化数据加载**：使用`pin_memory=False`减少锁页内存使用 3. **基础镜像配置**：在Dockerfile中预装共享内存工具 ```dockerfile RUN apt-get update && apt-get install -y iputils-ping ``` [^1]: 共享内存不足导致总线错误 [^2]: Docker中运行PyTorch程序出现共享内存错误 [^3]: 容器共享内存不足的详细解决步骤 [^4]: PyTorch多进程数据加载需要更大共享内存 [^5]: Dockerfile配置示例