大模型微调爆火!32种前沿微调方法全面汇总

大模型微调技术在短时间内迅速发展,迎来了爆火,各种微调包括LoRA的多个版本迭代、增量学习、蒸馏技术和开源模型的理解等技术层出不穷。

这些技术能够向模型输入更多信息,优化特定功能,使其适应特定任务或领域,是大模型er必须掌握的重要技能。

为了让大家跟上领域前沿,我整理了32种前沿微调技术

模型指令微调

【选取一部分参数更新】

1.BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models

简述:该文介绍了BitFit,这是一种稀疏微调方法,其中只修改模型的偏差项(或其子集)。作者发现,对于中小型训练数据,在预训练的BERT模型上应用BitFit与对整个模型的微调相比有时甚至更好。对于较大的数据,该方法与其他稀疏微调方法具有竞争力。


【增加额外参数】

2.Prefix-Tuning Optimizing Continuous Prompts for Generation

简述:该文提出了预调优,这是一种用于自然语言生成任务的轻量级微调替代方案,它可以保持语言模型参数的frozen,优化一个小的连续任务特定向量(称为预调优)。预调试从提示中汲取灵感,允许后续tokens像“虚拟tokens”一样参与预调试。

作者对GPT-2进行预调优,以生成表到文本,并对BART进行摘要。通过仅学习0.1%的参数,预调优在全数据设置中获得了可比的性能,在低数据设置中优于微调。


【引入重参数化】

3.LoRA: Low-Rank Adaptation Of Large Language Models

简述:该文提出了低秩自适应,即LoRA,它冻结预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,从而大大减少了下游任务的可训练参数数量。

LoRA在RoBERTa、DeBERTa、GPT-2和GPT-3上的模型质量与微调不相上下或者更好,并且它具有更少的可训练参数、更高的训练吞吐量。


【混合高效微调】

4.Towards A Unified View Of Parameter-Efficient Transfer Learning

简述:该文分解了最先进的参数有效迁移学习方法的设计,并提出了一个统一的框架,在它们之间建立联系。

具体来说,作者将它们重新定义为对预训练模型中特定隐藏状态的修改,并定义一组不同方法变化的设计维度,例如计算修改的函数和应用修改的位置。

该框架能够在不同的方法之间传递设计元素,这些方法比以前的方法调整更少的参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值