大模型--高效微调--Prefix Tuning

Prompt tuning

给每个任务初始化一些virtual token 的 embedding 作为 prefix 添加到序列中,训练时只优化 virtual token embedding

只在输入时把 task 的 token embedding 加入输入序列的 embedding

存在的问题

在模型规模不大的情况下,特别是少于100亿个参数,它仍然表现不如微调。

与微调相比,前缀微调在一些难以序列标记的任务上表现不佳,例如抽取式问答

P-tuning

相比 prompt tuning ,添加了一个 prompt encoder

prompt encoder is a bidirectional long-short term memory network or LSTM

virtual tokens 先输入 prompt encoder,encoder 的输出再输入预训练模型

还是只输入预训练模型第一层

prompt encoder的输出可以加在输入序列的任意位置,不局限在头部

Prefix tuning / P-Tuning v2

Prefix tuning / P-Tuning v2 对应了 2 篇论文,但是方法基本是一样的。

相比上面两种方法,virtual token embedding 会在 LLM 每一层的开头都输入

Reparameterization

Reparameterization的意思是参数在输入模型之前,先经过一层 MLP或者其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值