NCCL error in: , unhandled system error
今天pytorch分布式跑代码的时候出现RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled system error, NCCL version 2.7.8 ncclSystemError: System call (socket, malloc, munmap, etc) failed.)NC.
原创
2022-01-02 17:13:32 ·
5761 阅读 ·
4 评论