本文是LLM系列文章,针对《LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra
摘要
已经提出了各种参数有效微调(PEFT)技术,以实现计算有效的微调,同时保持模型性能。然而,随着大型语言模型(LLM)的快速部署,现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战,我们提出了LoRETTA,这是一种超参数高效的框架,通过张量序列分解显著减少了可训练参数。具体来说,我们提出了两种方法,分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器,为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。LoRETTA的性能与最广泛使用的PEFT方法相当或更好,高达100倍LLaMA-2-7B模型上的参数较少。此外,实证结果表明,该方法有效地提高了训练效率,具有更好的多任务学习性能,增强了抗过拟合能力。基于Huggingface框架和PEFT库构建的即插即用代码将发布。
1 引言
2 背景
3 LoRETTA方法
4 实验
5 结论
我们提出了一种超参数有效的微调方法,称为LoRETTA,它在LLaMA-2模型上以较少的可训练参数优于其他PEFT方法。大量实验已经证明,具有低可训练参数可以促进计算和内存需求,降低存储需求,并增强