本文是LLM系列文章,针对《LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra
摘要
已经提出了各种参数有效微调(PEFT)技术,以实现计算有效的微调,同时保持模型性能。然而,随着大型语言模型(LLM)的快速部署,现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战,我们提出了LoRETTA,这是一种超参数高效的框架,通过张量序列分解显著减少了可训练参数。具体来说,我们提出了两种方法,分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器,为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。LoRETTA的性能与最广泛使用的PEFT方法相当或更好,高达100倍LLaMA-2-7B模型上的参数较少。此外,实证结果表明,该方法有效地提高了训练效率,具有更好的多任务学习性能,增强了抗过拟合能力。基于Huggingface框架和PEFT库构建的即插即用代码将发布。