Delta Tuning学习知识
本博客记录我学习B站【清华NLP】课程中的内容与想法,这是本系列第二篇,后续可能还会有更新。
文章目录
Delta Tuning介绍
- Prompt Learning对于位置任务不太适用,但是认为可以用于多模态。也就是图片与文本理解。
- Delta Tuning核心思想:绝大多数参数不变,只微调一小部分模型,优化特别少参数。也就是把解决任务抽象为一小部分参数(Delta Objects)。
有了预训练大模型,这类方法才有用。
分类:Addition,增量式;Specification,指定式;Reparameterization,重参数化式(现在超级常用的LoRA)。
提示:以下是本篇文章正文内容,下面案例可供参考
一、增量式tuning
代表方法1:Adapters
代表方法1:Adapters
事实上,Adapter就是简单的MLP,双层神经网络,实现上投影与下投影,输入维度与输出相同。
在Transformer架构中加入两个Adapter,只训练Adapter部分,大模型效果可能会更好。

后续改进工作还有把Adapter放在主模型外的,反向传播时不需要经过backbone,更省计算。且进行降维之后还减少内存占用。
代表方法2:Prefix-Tuning
soft token:可以理解为模

最低0.47元/天 解锁文章
1580

被折叠的 条评论
为什么被折叠?



