本文是LLM系列文章,针对《MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter
摘要
为了增强大型语言模型(LLM)对下游任务的适应性,通常需要进行微调。尽管如此,更新数十亿个参数的过程需要大量的计算资源和训练时间,这对大规模模型在各种场景中的广泛应用构成了重大障碍。为了解决这个问题,参数有效微调(PEFT)已成为最近研究的一个突出范式。然而,当前采用有限全局参数集的PEFT方法(如LoRA,它将低秩近似矩阵添加到所有权重)在灵活组合下游任务中的不同计算模块方面面临挑战。在这项工作中,我们介绍了一种新的PEFT方法:MoELoRA。我们将LoRA视为专家混合(MoE),为了缓解在MoE中观察到的随机路由现象,我们建议利用对比学习来鼓励专家学习不同的特征。我们对11项数学推理和常识推理基准任务进行了实验。在相同数量的参数下,我们的方法显著优于LoRA。在数学推理中,MoELoRA的平均性能比LoRA高4.2%,在几个基准测试中与175B GPT-3.5相比表现出了竞争力。
1 引言
2 相关工作
3 提出的方法
4 实验
5 分析
6 结论和未来工作
我们引入了一种新的参数高效微调方法,称为MoELoRA,并通过对比学习缓解了在MoE中观察到的随机路由