1.啥是deepspeed?
DeepSpeed是一个开源的深度学习优化库,它由微软开发并维护,旨在提高大规模模型训练的效率和可扩展性。
2.他的优势?
内存优化引擎:ZRRO
通信优化模块:张量并行,数据并行,流水线并行
训练优化工具:融合优化器,自动混合精度训练,学习率调度
3.使用(示例用Qwen1.8b):
git clone https://github.com/QwenLM/Qwen.git
git clone https://www.modelscope.cn/qwen/Qwen-1_8B-Chat.git
cd Qwen
pip install -r requirements.txt
pip install "peft<0.8.0" deepspeed
# 移动finetune_lora_single_gpu.sh到外面
cp finetune/finetune_lora_single_gpu.sh ./
# 调整超参
vim finetune_lora_single_gpu.sh
chmod +x finetune_lora_single_gpu.sh
# 准备数据(例如)
./finetune_lora_single_gpu.sh -m /mnt/workspace/Qwen-1_8B-Chat -d /mnt/workspace/data/data.json