* Received signal 11 * subprocess.CalledProcessError Segmentation fault

最新推荐文章于 2024-07-08 10:43:01 发布

原创最新推荐文章于 2024-07-08 10:43:01 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

环境配置与使用专栏收录该内容

49 篇文章

订阅专栏

在使用PyTorch DDP进行分布式训练时，遇到了信号11错误，通过逐步排查，发现Apex库中的FusedLayerNorm模块是导致问题的根源。卸载Apex并替换为自定义的PyTorch BertLayerNorm模块后，成功解决了DDP训练崩溃的问题。

部署运行你感兴趣的模型镜像

跑pytorch DDP时遇到下列错误：

*** Received signal 11 ***
*** BEGIN MANGLED STACK TRACE ***
/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/tensorflow/python/../libtensorflow_framework.so(+0x76833b)[0x7f00f344333b]
/lib64/libpthread.so.0(+0xf5f0)[0x7f01288ae5f0]
/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/apex_C.cpython-36m-x86_64-linux-gnu.so(+0x107cc)[0x7f00ee33a7cc]
/home/sanshuai.lj/software/anaconda3/envs/vilbert/bin/python(_PyCFunction_FastCallDict+0x154)[0x7f0128df0744]
/home/sanshuai.lj/software/anaconda3/envs/vilbert/bin/python(+0x19842c)[0x7f0128e7742c]
......
*** End stack trace ***
Traceback (most recent call last):
  File "/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/torch/distributed/launch.py", line 235, in <module>
    main()
  File "/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/torch/distributed/launch.py", line 231, in main
    cmd=process.args)
subprocess.CalledProcessError: Command '['/home/sanshuai.lj/software/anaconda3/envs/vilbert/bin/python', '-u', 'train_concap.py', '--local_rank=0', '--from_pretrained', '/mnt/xuesheng_1/bert-base-uncased', '--bert_model', '/mnt/xuesheng_1/bert-base-uncased', '--config_file', 'config/bert_base_6layer_6conect.json', '--learning_rate', '1e-4', '--train_batch_size', '64', '--save_name', 'pretrained', '--distributed']' died with <Signals.SIGABRT: 6>.

换用单卡train时遇到下列错误：

*** Received signal 11 ***
*** BEGIN MANGLED STACK TRACE ***
/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/tensorflow/python/../libtensorflow_framework.so(+0x76833b)[0x7f4560e8333b]
/lib64/libpthread.so.0(+0xf5f0)[0x7f45eb3105f0]
/home/sanshuai.lj/software/anaconda3/envs/vilbert/lib/python3.6/site-packages/fused_layer_norm_cuda.cpython-36m-x86_64-linux-gnu.so(+0x172cc)[0x7d44dc7932cc]
python(_PyCFunction_FastCallDict+0x154)[0x7f45eb852744]
python(+0x19842c)[0x7f45eb8d942c]
......
*** End stack trace ***
Aborted

pip uninstall tensorflow后单卡train遇到下列错误：

Segmentation fault

pip uninstall apex后单卡train成功。

应该是from apex.normalization.fused_layer_norm import FusedLayerNorm as BertLayerNorm模块出了问题，将其换成手写的pytorch BertLayerNorm模块就可以正常DDP训练了。

您可能感兴趣的与本文相关的镜像

PyTorch 2.8

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

6 条评论

伯纳乌的小草 2023.03.11
老哥，能交流一下吗，或者能否发一下您的vilbert项目文件？我的vilbert跑了好久一直是这个问题，我把BertLayerNorm换成torch的也报错呢
- 伯纳乌的小草回复伯纳乌的小草 2023.03.11
  呜呜呜呜
- 伯纳乌的小草回复伯纳乌的小草 2023.03.11
  不用了老哥，我又设置了单卡训练，他跑起来了！感谢分享

伯纳乌的小草 2023.03.11
感谢我也在跑vilbert，已经卡很久了

croari 2021.04.19
请问“将其换成手写的pytorch BertLayerNorm模块”这个是什么意思，要怎么操作呢？
- 夜淡回复croari 2021.04.20
  比如你可以换成torch.nn.LayerNorm

*** Received signal 11 *** subprocess.CalledProcessError Segmentation fault

6 条评论

* Received signal 11 * subprocess.CalledProcessError Segmentation fault