华南师大：LLM分区LoRA训练方法

最新推荐文章于 2025-12-19 19:55:55 发布

原创最新推荐文章于 2025-12-19 19:55:55 发布 · 3.1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #语言模型 #论文笔记

大模型-模型训练专栏收录该内容

519 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

在这里插入图片描述

📖标题：LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning
🌐来源：arXiv, 2507.20999

🌟摘要

DeepSeek-R1 和 OpenAI-O1 等大规模生成模型从思维链 (CoT) 推理中受益匪浅，但推动它们的性能通常需要大量数据、大型模型大小和全参数微调。虽然参数高效的微调 (PEFT) 有助于减少成本，但大多数现有方法主要解决域适应或逐层分配，而不是针对不同的响应需求明确定制数据和参数。受“Thinking、Fast 和 Slow”的启发，它描述了两种不同的思维模式——系统 1（快速、直观、经常自动）和系统 2（更低、更深思熟虑和分析）——我们类比 LLM 参数的不同“子区域”可能类似地专门用于需要快速、直观的响应的任务，而不是需要多步逻辑推理的任务。因此，我们提出了 LoRA-PAR，这是一个双系统 LoRA 框架，它通过系统 1 或系统 2 需求划分数据和参数，为每个任务使用更少但更集中的参数。具体来说，我们通过多模型角色扮演和投票对任务数据进行分类，并根据重要性评分划分参数，然后采用两阶段微调训练系统 1 任务微调策略 (SFT)，以增强知识和直觉，并通过强化学习 (RL) 改进系统 2 任务，以加强接下来更深入的逻辑审议。大量实验表明，两阶段微调策略 SFT 和 RL 在匹配或超过 SOTA PEFT 基线时降低了主动参数使用。

🛎️文章简介

🔸研究问题：如何在大语言模型（LLM）中实现高效的多阶段微调，以提升其在不同推理任务中的表现，并减少计算开销？
🔸主要贡献：论文提出了一种灵活的双系统LoRA分区方法，通过重要性基础的参数选择和两阶段微调策略，有效提升了大型语言模型的性能和效率。

📝重点思路

🔸利用多模型角色扮演和投票对问题进行分类，明确区分系统1（快速反应）和系统2（多步骤推理）任务。
🔸计算每个LoRA参数在不同任务中的重要性，通过设定阈值选择重要参数进行激活。
🔸实施两阶段微调策略：第一阶段是针对系统1的微调，使用监督学习，第二阶段是针对系统2的微调，采用强化学习，优化推理能力。
🔸通过调节共享参数的激活分数（α和β）控制参数在两个阶段中的更新，以实现更高的效率。

🔎分析总结

🔸通过实验验证，选择性激活LoRA参数能显著提升系统1和系统2的性能，且在使用相同参数量的情况下，取得更好的表现。
🔸在应用阈值选择时，仅激活前40%重要参数即可实现与全参数微调相媲美的效果，表明有针对性的参数选择对提升模型性能至关重要。
🔸研究发现，系统1和系统2的参数存在部分重叠，通过有效划分这些参数，可同时优化快速反应和深度推理能力。