LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of LLMs

UnknownBody

于 2024-04-22 09:27:26 发布

阅读量278

点赞数 6

CC 4.0 BY-SA版权

分类专栏： LLM Training 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138059371

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

75 篇文章

订阅专栏

LoRETTA是一种针对大型语言模型（LLM）的超参数高效微调框架，通过张量列车分解显著减少可训练参数。它提出LoRETTAadp和LoRETTArep方法，实现高性能且轻量级的微调，同时在多任务学习和防止过拟合方面表现优越。实验显示，LoRETTA在LLaMA-2-7B模型上以最少100倍参数达到与其他PEFT方法相当或更好的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra

LoRETTA：大语言模型超低参数微调的低阶经济张量序列自适应

摘要
1 引言
2 背景
3 LoRETTA方法
4 实验
5 结论
局限性

摘要

已经提出了各种参数有效微调（PEFT）技术，以实现计算有效的微调，同时保持模型性能。然而，随着大型语言模型（LLM）的快速部署，现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战，我们提出了LoRETTA，这是一种超参数高效的框架，通过张量序列分解显著减少了可训练参数。具体来说，我们提出了两种方法，分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器，为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。LoRETTA的性能与最广泛使用的PEFT方法相当或更好，高达100倍LLaMA-2-7B模型上的参数较少。此外，实证结果表明，该方法有效地提高了训练效率，具有更好的多任务学习性能，增强了抗过拟合能力。基于Huggingface框架和PEFT库构建的即插即用代码将发布。

1 引言

2 背景

3 LoRETTA方法

4 实验

5 结论

我们提出了一种超参数有效的微调方法，称为LoRETTA，它在LLaMA-2模型上以较少的可训练参数优于其他PEFT方法。大量实验已经证明，具有低可训练参数可以促进计算和内存需求，降低存储需求，并增强

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。