Python系列:pycharm 远程连接服务器并且debug, 支持torch.distributed.launch debug

332 篇文章 ¥99.90 ¥299.90




step1:下载专业版本的pycharm

在这里插入图片描述

https://www.jetbrains.com/pycharm/download/other.html
首先,你需要有个专业版本的pycharm,并且要有激活码,有需要激活码的可以私信我,我这里的激活码全部最新的pycharm都可以激活,以下激活码只是样例,过期了。

NXHAY2OW76-eyJsaWNlbnNlSWQiOiJOWEhBWTJPVzc2IiwibGljZW5zZWVOYW1lIjoiSHVuYW4gSW5zdGl0dXRlIG9mIFNjaWVuY2UgYW5kIFRlY2hub2xvZ3kiLCJhc3NpZ25lZU5hbWUiOiJ6b2xhIGdhcm1zIiwiYXNzaWduZWVFbWFpbCI6InpvbGFfZ2FybXNAaG90bWFpbC5jb20iLCJsaWNlbnNlUmVzdHJpY3Rpb24iOiJGb3IgZWR1Y2F0aW9uYWwgdXNlIG9ubHkiLCJjaGVja0NvbmN1cnJlbnRVc2UiOmZhb
### 正确使用 `python -m torch.distributed.run` 和 `python -m torch.distributed.launch` #### 使用 `torch.distributed.launch` 为了启动多进程分布式训练,可以利用 `torch.distributed.launch` 命令。此工具简化了设置多个GPU上的并行处理过程。具体来说: 可以通过如下命令查看可用选项[^1]: ```bash python -m torch.distributed.launch --help ``` 执行带有特定参数的分布式训练任务时,通常采用以下形式调用该命令: ```bash python -m torch.distributed.launch \ --nnodes=1 \ --node_rank=0 \ --nproc_per_node=8 \ train_script.py (--arg1 val1 ... argN valN) ``` 这里 `-nnodes`, `-node_rank`, 和 `-nproc_per_node` 参数分别指定了节点数量、当前节点排名以及每台机器上使用的GPU数目。 对于调试目的,在集成开发环境(IDE)如PyCharm配置远程服务器连接来进行断点调试是可行的方法之一;另外还有两种主要途径支持更灵活地调整和监控程序行为[^2]。 #### 使用 `torch.distributed.run` 相比之下,`torch.distributed.run` 是较新的接口设计用于替代旧版的 `launch` 工具。它提供了更加简洁易懂的方式去管理集群资源分配,并且兼容更多类型的后端通信协议(例如 NCCL, Gloo)。基本语法结构相似但有所改进: 要发起一次跨多设备的学习流程,可参照下面的例子[^3]: ```bash python -m torch.distributed.run \ --standalone \ --nnodes=1 \ --nproc_per_node=8 \ training_script.py (--args...) ``` 值得注意的是,当从基于 `torch.distributed.launch` 的现有项目迁移到新API时,除了更新命令外,可能还需要适当修改源码内的初始化逻辑以适应变化后的API特性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坦笑&&life

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值