【GPT入门】第57课 详解 LLamaFactory 与 XTuner 实现大模型多卡分布式训练的方案与实践

1. 理论

deepspeed的三种训练方式
zero-1,优化器状态分片。的优势体现在多卡上,对单卡没起到优化效果
zero-2: 梯度分片+优化器状态分片,梯度分片就是模型分片,这里是模型中反向过程的拆分
zero-3: 参数分片+梯度分片+优化器状态分片。前向反向都参与计算。节省显存,但计算最慢。
LLamaFactory和xtuner都实现了deepspeed来体现训练性能,下文分别采用这两个技术实践训练过程

2.LLamaFacotory实践

2.1 LLamaFacotory 介绍

官网说明:
https://llamafactory.readthedocs.io/zh-cn/latest/advanced/distributed.html#

deepSpeed state = none 不会节省现存,每张卡的现存都一样的

  • 分布训练介绍
    在这里插入图片描述
  • DeepSpeed集成介绍
    在这里插入图片描述
  • ui中none就是不开启deepseek
    在这里插入图片描述
  • 单机多卡计算

在llamafactory ui中,直接选DeepSpeed stage=2或3就可以开始单机多卡的计算
在这里插入图片描述

  • 训练看看,发现报错
    在这里插入图片描述

  • state设置为2
    pip install deepspeed

[rank1]: ImportError: deepspeed>=0.10.0,<=0.16.9 is required for a normal functioning of this module, but found deepspeed0.17.5.
[rank1]: To fix: run pip install deepspeed>=0.10.0,<=0.16.9.
pip install deepspeed
0.16.9

运行前截图:
在这里插入图片描述

  • 双卡使用情况可视化
    在这里插入图片描述

3. xtuner

3.1 介绍

XTuner 是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值