浙大庄越挺 | MoA：用于大型语言模型参数高效微调的适配器异构混合方法

最新推荐文章于 2025-11-26 15:49:07 发布

原创最新推荐文章于 2025-11-26 15:49:07 发布 · 649 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #算法 #microsoft #数据库 #架构

1.摘要

近期研究将LoRA与MoE结合以提升PEFT方法在LLM中的性能。

现有方法采用同构MoE-LoRA架构，其LoRA专家结构和容量相似，但存在表示崩溃和专家负载不平衡问题，影响LLM潜力。

为此，本文提出异构MoA方法，动态集成结构多样的PEFT适配器专家，利用互补表示能力促进专家专业化，增强预训练知识向下游任务的迁移。

MoA支持两种变体：SoftMoA通过加权融合所有专家输出实现细粒度集成；

Sparse MoA基于专家贡献稀疏激活适配器，性能退化可忽略。

实验表明，异构MoA在性能和参数效率上均优于同构MoE-LoRA方法。

2.背景

LLMs在跨域任务中展现出强大泛化能力，但其规模增长导致传统全量微调的计算、存储和部署成本成为实际应用瓶颈。

因此，PEFT方法通过在冻结预训练权重上引入轻量级适配器模块，实现低开销的模型适配，成为研究重点。

LoRA方法通过低秩分解近似全量微调，但表示能力易饱和。

近期方法将LoRA与MoE结合形成MoE-LoRA框架，通过token级动态路由增强模型适应性，但同构设计导致专家学习相似表示，引发表示崩溃，且动态路由易导致负载不平衡，少数专家处理大量token，抑制其他专家参与，造成资源浪费。

基于此，本文认为同构专家的表示收敛限制了PEFT方法的性能上限。

3.贡献

1.提出基于异构专家的MoA，集成结构多样的PEFT模块构建互补表示能力的适配器，增强专家专业化，缓解传统MoE-LoRA的专家冗余问题，以更少参数实现高效任务适配。

2.设计Soft MoA和Sparse MoA两种变体：Soft MoA通过加权融合专家输出实现细粒度集成；Sparse MoA利用阈值函数动态选择高贡献专家，减少冗余计算，提升关键token的表示能力。

3.实验验证MoA在数学和常识推理任务中优于现有MoE-LoRA方法，在GPU内存、训练效率和推理速度上表现更优，兼具参数效率和知识迁移能力。

4.技术方案

同构MoE的表示崩溃和负载不平衡源于专家结构与容量相同，专业化不足。

MoA通过Transformer块中结构和位置各异的PEFT适配器构建异构专家，包括LoRA、并行适配器和零初始化提示微调。

Soft MoA：每个Transformer层包含软加权路由器和异构专家集合。

路由器通过sigmoid函数计算专家权重，对每个token的专家输出加权融合，促进专家合作而非竞争，避免表示崩溃和负载平衡损失。

Sparse MoA：通过阈值函数动态激活高贡献专家，未达阈值的专家不参与计算，减少冗余。

阈值函数根据token语义重要性动态调整，关键token激活更多专家，非关键token仅用少量专家，提升计算效率。

提示微调因无法支持token级路由，未纳入Sparse MoA框架。

5.实验结果

如表 1 和表 2 所示，Soft MoA 和 Sparse MoA 在数学和常识推理任务上均持续优于同构 MoE-LoRA 基线。

Soft MoA 在数学基准上以仅 24.52M 可训练参数实现最高准确率（81.51%），几乎比 AdaMoLE 和 MoLoRA 少 4 倍。

Sparse MoA 以最小的参数数量（22.29M）实现了强劲性能（数学 81.20%，常识 84.62%），在数学准确率上超越所有其他方法。

这些结果表明，MoA 中的异构专家提高了性能和效率，有效解决了现有 MoE-LoRA 设计中的冗余问题。

6.结论

本文提出的MoA通过异构PEFT适配器实现LLM的高效微调，在常识和数学推理任务中性能优于同构MoE-LoRA方法，兼具训练时间、内存和推理效率优势。

Sparse MoA在大批量时更省内存，但小批量时因稀疏路由开销耗时较长，且不支持提示微调等依赖样本内token关联的方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述