LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of LLMs

828 篇文章

已下架不支持订阅

LoRETTA是一种针对大型语言模型(LLM)的超参数高效微调框架,通过张量列车分解显著减少可训练参数。它提出LoRETTAadp和LoRETTArep方法,实现高性能且轻量级的微调,同时在多任务学习和防止过拟合方面表现优越。实验显示,LoRETTA在LLaMA-2-7B模型上以最少100倍参数达到与其他PEFT方法相当或更好的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra

LoRETTA:大语言模型超低参数微调的低阶经济张量序列自适应

摘要

已经提出了各种参数有效微调(PEFT)技术,以实现计算有效的微调,同时保持模型性能。然而,随着大型语言模型(LLM)的快速部署,现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战,我们提出了LoRETTA,这是一种超参数高效的框架,通过张量序列分解显著减少了可训练参数。具体来说,我们提出了两种方法,分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器,为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。LoRETTA的性能与最广泛使用的PEFT方法相当或更好,高达100倍LLaMA-2-7B模型上的参数较少。此外,实证结果表明,该方法有效地提高了训练效率,具有更好的多任务学习性能,增强了抗过拟合能力。基于Huggingface框架和PEFT库构建的即插即用代码将发布。

1 引言

2 背景

3 LoRETTA方法

4 实

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值