1.当前高效微调技术的简述
之前对一些常见的高效微调技术进行了背景介绍及技术原理剖析,下面对每一种高效微调技术的特点进行简要的总结。
2.BitFit
对微调机制的一种积极探索,也很简单,通过仅调整bias效果就能有不错的效果,但没有具体阐述原理,就是通过猜测加实验得到的结果。同时,作者提出一个观点:微调的过程不是让模型适应另外的数据分布,而是让模型更好的应用出本身的表征能力。
特点:
- 训练参数量极小(约0.1%)。
- 在大部分任务上效果会差于LoRA、Adapter等方法。
3.Prefix Tuning
在每一个Transformer层都带上一些virtual token作为前缀,以适应不同的任务。
特点:
- 前缀Token会占用序列长度,有一定的额外计算开销。
- Prefix Tuning的线性插值是比较复杂的。
4.Prompt Tuning
该方法可以看着是Prefix Tuning的简化版本,针对不同的任务,仅在输入层引入virtual token形式的软提示(soft prompt)。
特点:
- 相对于Prefix Tuning,参与训练的参数量和改变的参数量更小,更节省显存。
- 对一些简单
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



