华南师大:LLM分区LoRA训练方法

部署运行你感兴趣的模型镜像

在这里插入图片描述

📖标题:LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning
🌐来源:arXiv, 2507.20999

🌟摘要

DeepSeek-R1 和 OpenAI-O1 等大规模生成模型从思维链 (CoT) 推理中受益匪浅,但推动它们的性能通常需要大量数据、大型模型大小和全参数微调。虽然参数高效的微调 (PEFT) 有助于减少成本,但大多数现有方法主要解决域适应或逐层分配,而不是针对不同的响应需求明确定制数据和参数。受“Thinking、Fast 和 Slow”的启发,它描述了两种不同的思维模式——系统 1(快速、直观、经常自动)和系统 2(更低、更深思熟虑和分析)——我们类比 LLM 参数的不同“子区域”可能类似地专门用于需要快速、直观的响应的任务,而不是需要多步逻辑推理的任务。因此,我们提出了 LoRA-PAR,这是一个双系统 LoRA 框架,它通过系统 1 或系统 2 需求划分数据和参数,为每个任务使用更少但更集中的参数。具体来说,我们通过多模型角色扮演和投票对任务数据进行分类,并根据重要性评分划分参数,然后采用两阶段微调训练系统 1 任务微调策略 (SFT),以增强知识和直觉,并通过强化学习 (RL) 改进系统 2 任务,以加强接下来更深入的逻辑审议。大量实验表明,两阶段微调策略 SFT 和 RL 在匹配或超过 SOTA PEFT 基线时降低了主动参数使用。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现高效的多阶段微调,以提升其在不同推理任务中的表现,并减少计算开销?
🔸主要贡献:论文提出了一种灵活的双系统LoRA分区方法,通过重要性基础的参数选择和两阶段微调策略,有效提升了大型语言模型的性能和效率。

📝重点思路

🔸利用多模型角色扮演和投票对问题进行分类,明确区分系统1(快速反应)和系统2(多步骤推理)任务。
🔸计算每个LoRA参数在不同任务中的重要性,通过设定阈值选择重要参数进行激活。
🔸实施两阶段微调策略:第一阶段是针对系统1的微调,使用监督学习,第二阶段是针对系统2的微调,采用强化学习,优化推理能力。
🔸通过调节共享参数的激活分数(α和β)控制参数在两个阶段中的更新,以实现更高的效率。

🔎分析总结

🔸通过实验验证,选择性激活LoRA参数能显著提升系统1和系统2的性能,且在使用相同参数量的情况下,取得更好的表现。
🔸在应用阈值选择时,仅激活前40%重要参数即可实现与全参数微调相媲美的效果,表明有针对性的参数选择对提升模型性能至关重要。
🔸研究发现,系统1和系统2的参数存在部分重叠,通过有效划分这些参数,可同时优化快速反应和深度推理能力。

💡个人观点

论文的创新点在于结合了人类认知中的快思考与慢思考概念,通过精细化的参数分区和双阶段微调策略,不仅提升了模型在不同复杂推理任务中的表现,同时也降低了计算资源的消耗。

🧩附录

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值