DeepSpeed在docker容器内实现多机多卡

Matrix-yang

已于 2023-05-18 11:06:09 修改

阅读量4.3k

点赞数 2

文章标签： docker 运维容器

于 2023-03-30 11:23:27 首次发布

本文链接：https://blog.youkuaiyun.com/qq_21768483/article/details/129841826

版权

文章介绍了如何在多台Docker宿主机上配置overlay网络，通过Dockerswarm创建集群，然后建立attachable的overlay网络，使得不同主机上的容器可以相互通信。在启动容器时指定网络，并提到了在使用deepspeed时需注意NCCL的配置，特别是指定通讯网卡为eth0。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多台docker宿主机网络配置

https://docs.docker.com/network/overlay/
这里需要创建overlay网络是多台宿主机的容器可以通过网络连接

创建集群

docker swarm init

另一台机器加入集群

docker swarm join --token SWMTKN-1-1nnq6klpq7z93lqmshd4rqvk44x1qyyen4wacuei1t46wnvm3r-80qzsy8qfdke7hgex7n5x2c37 172.17.0.5:2377

在集群里创建一个my-attachable-overlay的虚拟网络

docker network create -d overlay --attachable my-attachable-overlay

启动容器时使用创建的网络

docker run -it --gpus=all --ipc=host --net=my-attachable-overlay --name ydq_chatglm_env -v /data3:/data3 chatglm:v0.3 /bin/bash

以该网络创建的容器间可以直接通讯
两边容器都启动后

#分别查看机器分配到的IP
ifcofig

deepspeed的配置

按照官网设置

#需要注意NCCL的配置,这里需要根据机器的情况指定NCCL的通讯网卡
NCCL_SOCKET_IFNAME=eth0

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Matrix-yang

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

deepspeed多机多卡并行训练指南

qq_44193969的博客

08-31

4149

7机14卡，每台服务器两张A800服务器只允许内网访问，不能连接外网因此，你需要先搞定如何离线配置训练环境真正跑过多机多卡训练的同学，应该能明白，这篇文章是有多细节了！毫不夸张地说，干货满满！

[deepspeed源码解析]site-packages＞deepspeed ＞launcher ＞runner.py 多机多卡 + deepspeed配置

强化学习曾小健

07-05

1383

如果未检测到或传入主机文件，则 DeepSpeed 将查询本地计算机上的 GPU 数量以发现可用的插槽数量。一旦 DeepSpeed 引擎初始化完毕，就可以使用三个简单的 API 来训练模型，即前向传播（可调用对象）、后向传播（另外，DeepSpeed 允许您将模型的分布式训练限制在可用节点和 GPU 的子集上。：在 FP16/混合精度训练中，DeepSpeed 引擎会自动处理损失缩放，以避免梯度中的精度损失。然后，DeepSpeed 将确保在其训练作业的每个节点上启动每个进程时设置这些环境变量。

5 条评论您还未登录，请先登录后发表或查看评论

docker容器中deepspeed多机多卡集群分布式训练大模型

Li1502927435的博客

08-16

1968

由于docker swarm网络会随机分配ip地址，每次服务器重启后，容器ip都会改变，所以都可需要修改映射，读者可以尝试如何固定容器静态IP。更改后运行这个代码可以一键安装适合版本的，如果那个软件包安装报错可以试试跳过他，在requirement中删除对他相应的版本约束。后面和代码大多借鉴的这位大佬的文章，但大佬跳过了一些基础内容，我进行了一些补充。可以使用vim命令复制，如果安装vim命令失败，可以使用cat命令。，可以看到显卡均有被使用，至此，分布式训练完毕。命令进入容器， ping 一下。

使用DeepSpeed进行多机多卡训练模型

weixin_45056021的博客

10-29

3046

中可根据多机多卡环境调整批量大小、梯度累积等超参数，DeepSpeed 会自动管理训练过程。为了使各节点（机器）能够相互通信，你需要设置主节点的地址和端口。DeepSpeed 使用。配置文件中，不需特别调整机器数量相关的配置，主要是根据训练环境进行优化。代码方面的调整较少，DeepSpeed 会自动处理多机分布式训练。在主节点和从节点上分别启动训练进程。完成这些步骤即可启动多机多卡训练。启动脚本，而从节点使用。区分主节点和从节点；多机训练时可以用一个。

deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总

sunny0121的博客

06-27

1351

docker集群中实现多机多卡分布式训练所遇到的问题及解决方法

Deepspeed 结合huggingface Trainer实现多机分布式训练

ningzhao的专栏

05-29

2660

目前工作中只使用了单机多卡做微调训练，为了提升训练效率，特实验多机多卡分布式训练。

【deepspeed】deepspeed多机多卡训练配置方法参考

测试人的成长日志

08-09

7928

deepspeed多机多卡训练踏过的坑 - 知乎

多机多卡docker分布式训练

weixin_41012399的博客

03-10

2094

正确配置方法是在主机上先新添加一个网桥，这个网桥配置新的网段，启动容器的时候选择该网卡的配置项。docker默认的内网网段为172.17.0.0/16，不同主机的容器ip有可能冲突，所以要先改ip。重新配置容器中的ssh，参考：https://blog.youkuaiyun.com/feiying0canglang/article/details/124656425。但是运维说后边想要不同主机容器内的ip互通是比较复杂的，建议采用使用端口号的形式，通过主机的ip互通。采用使用端口号的形式，通过主机的ip互通。

在Kubernetes集群中使的Docker镜像进行多机多卡分布式训练

weixin_45056021的博客

10-30

1254

该方案适用于基于DeepSpeed和MPI库的多机多卡分布式训练，MPIJob和都可适用于多节点训练场景。

大模型推理：vllm多机多卡分布式本地部署

m0_74823044的博客

02-07

2304

我是一台机器启动了一个docker，将docker当作一个节点，在docker里面执行ray start --head --port=6379，将另一台机器的docker作为worker节点，并加入到ray cluster中，如果机器间的通信没有问题，worker节点在几秒内就能加入集群。值得注意的是多机多卡部署的推理框架，也适用于单机多卡，单机单卡，这里不过多赘述。确保head节点的IP与指定的通信网卡的IP一致，同时，检查/etc/hosts里面的IP对应的主机名与docker的主机名是一致的。

deepspeed多机多卡训练

weixin_62848630的博客

12-25

521

注意，多机多卡训练的容器启动命令里必须有--network=host参数，如下。2.1每个机器上环境，代码，需一样，每个机器都得用以下脚本开启训练。2.2只有在主机的服务器终端显示训练进度条，loss，其余不显示。

DeepSpeed：DeepSpeed是一个深度学习优化库，可让分布式培训变得轻松，高效，有效

02-04

是一个深度学习优化库，可让分布式培训变得轻松，高效和有效。 10倍大型号训练速度提高10倍最小的代码更改 DeepSpeed为所有人提供了极端规模的模型培训，从在大型超级计算机上进行数据科学家培训到在低端群集甚至在单个GPU上进行培训的人员：极高的规模：使用当前拥有数百个设备的GPU集群，DeepSpeed的3D并行性可以有效地训练具有数万亿参数的深度学习模型。极高的内存效率：DeepSpeed的ZeRO-Offload仅需一个GPU，即可训练具有超过10B参数的模型，比现有技术大10倍，使数十亿参数的模型训练民主化，从而使许多深度学习科学家可以探索更大更好的模型楷模。极长的

保姆级LLM训练教程：阿里云平台使用accelerate,deepspeed多机多卡训练Chatglm2-6B

qq_50097745的博客

10-19

6828

网上的教程，都基本上可能他们自己都能调通，但是，很多细节都没有给出，如何从0到1去搭建多机多卡训练是个很大的难题。本教程是保姆级的教程，搭建数据多机多卡分布式训练，训练的策略是lora

使用DeepSpeed在Slurm集群上多机跑大模型

weixin_42628991的博客

07-28

4217

上面的脚本就是DeepSpeed在Slurm集群中多机运行的脚本，但是直接运行脚本会报错，local_rank无法通过args自动传参，导致没有分布式初始化，需要对。跑Bloom模型，在多机训练时遇到了一点问题，查了一些资料没有发现DeepSpeed在Slurm集群上多机跑的方法笔记，特此记录一下。以上就是在Slurm集群中使用DeepSpeed Chat多机训练模型的方法，不对的地方欢迎指正！其中每一行代表一个节点，第一个是节点名称，第二个是该节点使用的gpu数。做一下修改，把环境变量传参进去，在。

DeepSpeed多机多卡微调笔记

最新发布

weixin_45056021的博客

03-19

517

你现在的目标是在三台服务器上使用 DeepSpeed 进行多机多卡的 BERT 微调。你已经有了模型和数据，接下来的步骤包括配置 DeepSpeed 环境、设置分布式训练、启动多机训练任务。这样，你就可以在三台服务器上顺利进行 BERT 多机多卡微调了！进行多机多卡训练，需要所有服务器之间能够无密码 SSH 登录。如果 NCCL 通信正常，就可以继续。DeepSpeed 训练时，可以使用。进行测试，确保可以无密码登录。如果你的模型比较大，可以尝试。进行多机通信，建议安装。如果被占用，换一个端口。

deepspeed 多机多卡RuntimeError: Ninja is required to load C++ extensions

Matrix-yang的博客

03-30

1727

问题原贴： https://github.com/microsoft/deepspeed/issues/1687deepspeed 子进程的找不到ninja这个包，这包是用来加载tocrh的一些c++插件 cpu_adam或者 fuse adam，这个一般会引起下游的错误 No mudule named fuse adam 或者 No mudule named cpu_adam排查 ninja是否安装如果没有安装就如果有安装还是报错就继续往下看找到torch的源码报错位置（报错信息会写），文件名是cp

deepspeed多机多卡，断点继续预训练

zengxiaojian2的博客

07-20

1177

这段日志主要表明从检查点恢复训练，并且存在参数不匹配的警告。虽然恢复训练本身不会影响训练过程但参数不匹配可能需注意并进行调整，以确保训练的一致性和有效性。

llama-factory单机多卡训练

12-31

### 使用 llama-factory 进行单机多卡训练对于希望利用 llama-factory 执行单机多卡训练的用户来说，理解其基于 Docker 的架构以及具体的命令集至关重要。通过这些工具可以有效地管理和分配计算资源给多个 GPU。启动多卡训练之前，确保已经安装并配置好 Docker 和 nvidia-docker 支持[^2]。这一步骤是必要的，因为 llama-factory 利用了容器化技术来简化环境设置过程，并保证不同硬件间的兼容性。执行多卡训练的具体指令如下所示： ```bash llamafactory-cli train \ --gpus 0,1,2,3 \ # 指定使用的GPU编号 --distributed \ # 启用分布式模式 examples/train_lora/multi_gpu_training.yaml ``` 上述命令中的 `examples/train_lora/multi_gpu_training.yaml` 文件包含了用于指导训练流程的各项参数设定。此文件需根据实际需求调整优化器选项、学习率以及其他超参配置[^1]。为了进一步提高效率，在 YAML 配置文件内还可以指定数据加载方式和其他加速策略。例如启用混合精度训练以减少内存占用和加快运算速度；或是采用 DeepSpeed 来实现更高效的通信机制和支持更大的批量处理能力。完成训练之后，可以通过类似的命令来进行推理测试或导出最终模型权重: ```bash llamafactory-cli chat examples/inference/multi_gpu_inference.yaml llamafactory-cli export examples/merge_lora/final_model_export.yaml ``` 以上操作均应在同一台机器上拥有足够数量显卡的情况下运行，从而充分利用本地资源提升性能表现。