背景: pytorch分布式运行时,主节点报错而子节点没有错误信息 主节点报错 原因: 传入给子节点和主节点的epoch不一样 可以看到主节点是5000 而子节点是50 解决步骤: 将两个epoch换为统一即可