大模型微调技术在短时间内迅速发展,迎来了爆火,各种微调包括LoRA的多个版本迭代、增量学习、蒸馏技术和开源模型的理解等技术层出不穷。
这些技术能够向模型输入更多信息,优化特定功能,使其适应特定任务或领域,是大模型er必须掌握的重要技能。
为了让大家跟上领域前沿,我整理了32种前沿微调技术
模型指令微调
【选取一部分参数更新】
1.BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models
简述:该文介绍了BitFit,这是一种稀疏微调方法,其中只修改模型的偏差项(或其子集)。作者发现,对于中小型训练数据,在预训练的BERT模型上应用BitFit与对整个模型的微调相比有时甚至更好。对于较大的数据,该方法与其他稀疏微调方法具有竞争力。
【增加额外参数】
2.Prefix-Tuning Optimizing Continuous Prompts for Generation
简述:该文提出了预调优,这是一种用于自然语言生成任务的轻量级微调替代方案,它可以保持语言模型参数的frozen,优化一个小的连续任务特定向量(称为预调优)。预调试从提示中汲取灵感,允许后续tokens像“虚拟tokens”一样参与预调试。
作者对GPT-2进行预调优,以生成表到文本,并对BART进行摘要。通过仅学习0.1%的参数,预调优在全数据设置中获得了可比的性能,在低数据设置中优于微调。
【引入重参数化】
3.LoRA: Low-Rank Adaptation Of Large Language Models
简述:该文提出了低秩自适应,即LoRA,它冻结预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,从而大大减少了下游任务的可训练参数数量。
LoRA在RoBERTa、DeBERTa、GPT-2和GPT-3上的模型质量与微调不相上下或者更好,并且它具有更少的可训练参数、更高的训练吞吐量。
【混合高效微调】
4.Towards A Unified View Of Parameter-Efficient Transfer Learning
简述:该文分解了最先进的参数有效迁移学习方法的设计,并提出了一个统一的框架,在它们之间建立联系。
具体来说,作者将它们重新定义为对预训练模型中特定隐藏状态的修改,并定义一组不同方法变化的设计维度,例如计算修改的函数和应用修改的位置。
该框架能够在不同的方法之间传递设计元素,这些方法比以前的方法调整更少的参数