1.单机多卡训练
deepspeed bunny/train/train.py \
--deepspeed ./script/deepspeed/zero3.json \
--model_name_or_path /path/to/meta-llama/Meta-Llama-3-8B-Instruct \
--model_type $MODEL_TYPE \
2.多机多卡
2.1每个机器上环境,代码,需一样,每个机器都得用以下脚本开启训练
2.2只有在主机的服务器终端显示训练进度条,loss,其余不显示
注意,多机多卡训练的容器启动命令里必须有--network=host参数,如下,但是--network=host与
-p 1115:22冲突,两者只能设置一个
docker run -itd --name sd6 --shm-size 60g --network=host ...
deepspeed --hostfile=hostfile.txt --node_rank=0 --master_addr=8.353.108.31 --master_port=1150 --no_ssh bunny/train/train.py \
--deepspeed ./script/deepspeed/zero3.json \
--model_name_or_path /path/to/meta-llama/Meta-Llama-3-8B-Instruct \
--model_type $MODEL_TYPE \
#hostfile.txt 文件内容如下所示,前面是所用的服务器ip,slots为卡数(进程数)
8.353.108.31 slots=8
8.353.108.212 slots=8
#好像所用的服务器ip前三位得一样,如都为8.353.108,待验证,但需在一个服务器ping 另外的服务器可以ping通
#参数说明
--node_rank:当前服务器是几号, 0,1,2,3,4,5,6,7,8
--master_addr:主进程的ip,每个服务器上的值一样
--master_port:不同服务器之间的通信端口,随便指定,每个服务器上的值一样
--no_ssh:服务器之间采用非ssh通信