Prompt tuning
给每个任务初始化一些virtual token 的 embedding 作为 prefix 添加到序列中,训练时只优化 virtual token embedding
只在输入时把 task 的 token embedding 加入输入序列的 embedding
存在的问题
在模型规模不大的情况下,特别是少于100亿个参数,它仍然表现不如微调。
与微调相比,前缀微调在一些难以序列标记的任务上表现不佳,例如抽取式问答
P-tuning
相比 prompt tuning ,添加了一个 prompt encoder
prompt encoder is a bidirectional long-short term memory network or LSTM
virtual tokens 先输入 prompt encoder,encoder 的输出再输入预训练模型
还是只输入预训练模型第一层
prompt encoder的输出可以加在输入序列的任意位置,不局限在头部
Prefix tuning / P-Tuning v2
Prefix tuning / P-Tuning v2 对应了 2 篇论文,但是方法基本是一样的。
相比上面两种方法,virtual token embedding 会在 LLM 每一层的开头都输入
Reparameterization
Reparameterization的意思是参数在输入模型之前,先经过一层 MLP或者其