RuntimeError: Cannot re-initialize CUDA in forked subprocess. 一个奇怪bug的奇妙解决方法

最新推荐文章于 2024-05-07 17:19:42 发布

原创最新推荐文章于 2024-05-07 17:19:42 发布 · 798 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#bug #python #pytorch

原本代码运行正常，修改输入后出现Bug。原因是Tensor形式的数据读取失败，导致多线程创建失败。解决方案是将Tensor存储的数据转换为Array形式。

部署运行你感兴趣的模型镜像

原本代码是可以正常运行的，但是我改了输入之后就出现这个bug。

最后解决的方法也很神奇：原因是我的输入数据是以Tensor形式存储的，于是在读取的时候，不知道为什么导致了读取失败，并引发了多线程创建失败，最终报了这个错误。在将Tensor形式存储的训练数据改为array形式后，便一切正常了。

您可能感兴趣的与本文相关的镜像

PyTorch 2.8

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YnullW

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you

福尔摩斯帅双的博客

03-30

2075

报错如下: Traceback (most recent call last): File “E2Capsnet.py”, line 777, in main() File “E2Capsnet.py”, line 619, in main train(epoch) File “E2Capsnet.py”, line 470, in train for batch_id, (data, label) in enumerate(raf.train_loader): File “/home/nuaa301/a

Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing 问题解决

zwhszdx的博客

08-12

3011

使用FastChat框架中的vllm_work部署DeepSeek-Coder-V2时遇到Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing 问题解决

2 条评论您还未登录，请先登录后发表或查看评论

多进程的子进程cuda使用报错: Cannot re-initialize CUDA in forked subprocess

qq_43199876的博客

12-13

1万+

这个错误表明在使用CUDA时，你的代码在一个使用fork启动方法的多进程环境中，而CUDA不支持在fork的子进程中重新初始化。为了解决这个问题，你可以将多进程的启动方法改为使用spawn，这样就可以在子进程中重新初始化CUDA。在Python中，你可以使用multiprocessing模块中的Manager对象来共享资源，或者使用Pool对象来处理进程池中的任务。如果你仍然遇到问题，可能需要考虑其他方法，例如在主进程中初始化CUDA，并将相应的资源传递给子进程，以避免CUDA的重新初始化问题。

RuntimeError: Cannot re-initialize CUDA in forked subprocess.

u013409979的博客

05-07

3307

分析：multiprocessing启动方式有误。2、直接设置num_workers=0。

Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you

m0_52280920的博客

01-12

2394

当然，在定义dataset，方法__getitem__ 里把张量放到device里也会产生同样的错误。但是gpu会卡住不运行数据加载。

Cannot re-initialize CUDA in forked subprocess.

无左无右的博客

01-09

760

"Cannot re-initialize CUDA in forked subprocess. " + msg) RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method anconda...

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method

08-30

当您在使用CUDA进行多进程编程时，如果出现"RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method"的错误提示，这是因为在...

vllm RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method\

热门推荐

NLOS的博客

05-14

2万+

在程序最开始的地方加上： torch.multiprocessing.set_start_method(‘spawn’) 即可解决，如下第二行所示： if __name__=='__main__': torch.multiprocessing.set_start_method('spawn') args = config_parser().parse_args() data_loader = CreateDataLoader(args) train() 其他详细的解释和

cannot re-initialize CUDA in forked subproess

chumingqian的博客

04-02

2275

该问题描述了pytorch 中使用cuda 初始化时，　与DataLoader中使用num_worker 多进程，　这两者之间发生了冲突，根据错误提示，　在DataLoader 中使用该参数，并设置为spawn，　由于平时创建时，使用fork 创建的是子线程，　所以没有注意。

pythonRuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing

ResumeProject的博客

06-24

6580

fork spawn

关于RuntimeError: Cannot re-initialize CUDA in forked subprocess和CUDA error: initialization error的解决

狂小虎/Anthony Dave的博客 KuangXiaoHu's Blogs

09-27

3091

最近小虎在cpu上试跑了detection任务的程序没什么问题，但是在gpu上运行时发生了关于cuda的一些报错，发现解决问题的精华就一句话。下面给出问题解决的例子和代码。

RuntimeError: Cannot re-initialize CUDA in forked subprocess

zhuoshengda的博客

03-15

572

CUDA出错的情况

cannot re-initialize CUDA in forked subprocess.To use CUDA with multiprocessing,you must use the ‘sp

weixin_39663060的博客

10-17

3348

cannot re-initialize CUDA in forked subprocess.To use CUDA with multiprocessing,you must use the 'spawn' start method.

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing

04-03

### 解决方案为了避免在多进程环境中因 `fork` 子进程而导致的 CUDA 初始化错误，可以采取以下措施： #### 方法一：更改多进程启动方式 Python 的 `multiprocessing` 提供了多种启动新进程的方式，默认情况下可能使用的是 `fork` 启动方法。然而，在 Linux 系统上，`fork` 创建的新进程会复制父进程的状态，这可能导致 CUDA 上下文无法正确初始化。因此，推荐将启动方法更改为 `spawn` 或 `forkserver`。可以通过设置环境变量或显式配置来实现这一目标： ```python import torch.multiprocessing as mp mp.set_start_method('spawn', force=True) # 设置为 spawn 方式 ``` 此操作能够确保每个子进程独立运行并重新初始化 CUDA 资源[^1]。 #### 方法二：调整 DataLoader 参数如果问题是由于 PyTorch 中的数据加载器 (`DataLoader`) 导致，则可以通过修改其参数来规避该问题。具体来说，减少或禁用用于数据预取的子进程数量是一个有效的方法。通过将 `num_workers` 设为 0 来关闭多线程处理功能即可避免子进程中的 CUDA 错误。以下是相应的代码示例： ```python train_loader = torch.utils.data.DataLoader( train_dataset, batch_size=batch_size, shuffle=True, num_workers=0, # 关闭多进程模式 pin_memory=True, drop_last=True ) ``` 这样做的代价可能是训练速度变慢，因为所有的数据准备工作都将在主线程中完成[^4]。 #### 方法三：分离 GPU 和 CPU 多进程逻辑另一种策略是在程序设计阶段就区分哪些部分应该由主进程负责（比如涉及 GPU 计算的部分），以及哪些适合交给子进程执行（通常仅限于纯 CPU 操作）。例如，让主进程单独管理模型训练过程及其所需的 GPU 资源；而对于诸如图像增强之类的任务则分配给其他非-GPU 使用的工作单元去完成。这种方法需要开发者仔细规划整个应用架构，并且注意不要尝试跨不同类型的上下文中传递任何依赖特定硬件状态的对象实例[^3]。 --- ### 总结综上所述，要防止出现 “Cannot re-initialize CUDA in forked subprocess.” 的异常情况，最直接有效的办法就是改变默认使用的进程创建机制至支持更好隔离特性的选项如 `'spawn'` ，或者干脆停用那些可能会间接触发此类冲突的功能特性像降低甚至完全移除额外 worker 数量设定等手段加以应对。