用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法

接着上一篇博客:在Ubuntu上用Llama Factory命令行微调Qwen2.5的简单过程_llamafactory 微调qwen 2.5-优快云博客

如果需要微调比较大的模型,例如Qwen2.5-32B,那么在两个3090上可能不够用,这里我用A6000×4的服务器。但如果仿照上篇博客,直接运行:

llamafactory-cli train examples/train_qlora/qwen_lora.yaml

那还是会报错:

torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 270.00 MiB. GPU 0 has a total capacity of 47.54 GiB of which 244.94 MiB is free. Including non-PyTorch memory, this process has 47.28 GiB memory in use.

解决方法很多朋友也介绍了:

llamafactory用多卡4

### 使用 LLaMA-Factory 部署和微调 Qwen 模型 #### 安装依赖库 为了能够顺利下载并使用来自ModelScope平台上的Qwen模型,需先安装`modelscope`工具包。这一步骤确保了后续操作可以无障碍获取所需的预训练权重文件。 ```bash pip install modelscope ``` 此命令会自动拉取最新版本的`modelscope`软件包到当前环境中[^1]。 #### 下载基础模型 借助于已安装好的`modelscope`库,可以从官方仓库中检索指定名称下的Qwen系列模型实例。具体来说,对于想要进行调整优化的目标网络结构而言,这里指定了7亿参数规模的基础版——即Qwen2-7B作为起始点。通过特定接口函数实现自动化下载流程简化了准备工作量的同时也提高了效率。 #### 微调过程概述 针对具体的业务场景需求,在获得上述提及的基础架构之后便进入了至关重要的定制化改进环节。LLaMA-Factory提供了一套完整的解决方案来支持这一阶段的工作: - **准备数据集**:收集整理适合目标任务类型的高质量语料资源; - **定义超参配置**:依据实验设计设定必要的学习率、批次大小等影响收敛性的因素; - **启动训练任务**:利用内置API提交作业请求至计算集群执行迭代更新直至满足终止条件为止; 完成以上步骤后就得到了经过针对性强化处理后的新型态AI助手实体。 #### 测试与验证成果 当一切进展顺利并且新的算法变体已经成型时,则进入到最终的质量检验部分。有两种主要方式可供选择用来衡量改进措施的有效性: - Evaluate & Predict(基于测试集合统计各项指标得分) - Chat(实时交互体验对话质量) 其中后者因为其即时反馈特性而被认为更加直观有效,允许开发者快速感知潜在问题所在并作出相应调整[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值