deepspeed多机多卡训练

看山不是山a

已于 2024-12-25 21:03:38 修改

阅读量655

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python基础知识文章标签：人工智能机器学习深度学习

于 2024-12-25 00:22:59 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_62848630/article/details/144705558

Python基础知识专栏收录该内容

24 篇文章

订阅专栏

1.单机多卡训练

deepspeed bunny/train/train.py \
    --deepspeed ./script/deepspeed/zero3.json \
    --model_name_or_path /path/to/meta-llama/Meta-Llama-3-8B-Instruct \
    --model_type $MODEL_TYPE \

2.多机多卡

2.1每个机器上环境，代码，需一样，每个机器都得用以下脚本开启训练

2.2只有在主机的服务器终端显示训练进度条，loss，其余不显示

注意，多机多卡训练的容器启动命令里必须有--network=host参数，如下，但是--network=host与

-p 1115:22冲突，两者只能设置一个


docker run -itd --name sd6 --shm-size 60g --network=host ...

deepspeed --hostfile=hostfile.txt --node_rank=0 --master_addr=8.353.108.31 --master_port=1150 --no_ssh bunny/train/train.py \
    --deepspeed ./script/deepspeed/zero3.json \
    --model_name_or_path /path/to/meta-llama/Meta-Llama-3-8B-Instruct \
    --model_type $MODEL_TYPE \

#hostfile.txt 文件内容如下所示，前面是所用的服务器ip，slots为卡数(进程数)
8.353.108.31 slots=8
8.353.108.212 slots=8
#好像所用的服务器ip前三位得一样，如都为8.353.108，待验证，但需在一个服务器ping 另外的服务器可以ping通

#参数说明
--node_rank：当前服务器是几号， 0，1，2，3，4，5，6，7，8
--master_addr：主进程的ip，每个服务器上的值一样
--master_port：不同服务器之间的通信端口，随便指定，每个服务器上的值一样
--no_ssh：服务器之间采用非ssh通信