vscode连接远程服务器,并在docker中利用torchrun分布式调试代码
遇到的问题: 我之前使用的经验是在conda 中调试,并且代码的启动方式是python XX.py 。像这样在docker容器内部并且调试多卡执行的程序着实费了一番功夫,下文主要是解决在vscode中调试分布式程序时的经验
vscode 连接远程服务器准备
在 远程资源管理器 的 SSH配置文件中,添加服务器的用户名和地址
点击小齿轮这里就可以添加啦

docker准备 (略)
在远程服务器中,
- 安装docker
- 拉取镜像
- 创建容器
在vscode中安装docker扩展
安装好之后会看到:
- 侧边栏有一个鲸鱼🐳图标
- 远程服务器所有的容器以及他们的状态
- 远程服务器所有的镜像
从容器中新建VSCode窗口
- 在我们想要调试环境的容器中,