【GPT入门】第57课 大模型多卡计算
1. 理论
deepspeed的三种训练方式
zero-1,优化器状态分片。的优势体现在多卡上,对单卡没起到优化效果
zero-2: 梯度分片+优化器状态分片,梯度分片就是模型分片,这里是模型中反向过程的拆分
zero-3: 参数分片+梯度分片+优化器状态分片。前向反向都参与计算。节省显存,但计算最慢。
LLamaFactory和xtuner都实现了deepspeed来体现训练性能,下文分别采用这两个技术实践训练过程
2.LLamaFacotory实践
2.1 LLamaFacotory 介绍
官网说明:
https://llamafactory.readthedocs.io/zh-cn/latest/advanced/distributed.html#
deepSpeed state = none 不会节省现存,每张卡的现存都一样的
- 分布训练介绍

- DeepSpeed集成介绍

- ui中none就是不开启deepseek

- 单机多卡计算
在llamafactory ui中,直接选DeepSpeed stage=2或3就可以开始单机多卡的计算

-
训练看看,发现报错

-
state设置为2
pip install deepspeed
[rank1]: ImportError: deepspeed>=0.10.0,<=0.16.9 is required for a normal functioning of this module, but found deepspeed0.17.5.
[rank1]: To fix: run pip install deepspeed>=0.10.0,<=0.16.9.
pip install deepspeed0.16.9
运行前截图:

- 双卡使用情况可视化

3. xtuner
3.1 介绍
XTuner 是

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



