论文解读:P-Tuning v2: Prompt Tuning Can BeComparable to Fine-tuning Universally Across Scales and Tasks

本文提出P-Tuningv2,一种针对NLU优化的深度提示调整方法,显示了在各种模型规模和任务中与微调相当的性能,同时参数量显著减少。实验表明其在不同任务和模型规模上的效果超越了先前的prompttuning方法。

1 介绍

提示调优只使用冻结的语言模型来调优连续的提示,这大大减少了每次任务的存储和训练时的内存使用。然而,在NLU的背景下,先前的工作表明,对于正常大小的预训练模型,即时调优并不能很好地执行。还发现,现有的提示调优方法无法处理硬序列标记任务,这表明缺乏通用性。论文提出了一个新的经验发现,即适当优化的prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配,同时只有0.1%-3%的微调参数。P-Tuning v2是针对NLU优化和调整的深度提示调整(Li和Liang,2021;Qin和Eisner,2021)的实现。

预训练语言模型(Radford等人,2019;Devlin等人,2018;Yang等人,2019年;Raffel等人,2019)提高了在各种自然语言理解(NLU)任务中的表现。一种广泛使用的方法,即微调,更新目标任务的整个模型参数集
。虽然微调可以获得良好的性能,但在训练过程中会消耗内存,因为必须存储所有参数的梯度和优化器状态。此外,在推理过程中为每个任务保留模型参数的副本是不方便的,因为预训练的模型通常很大。

Prompting。提示冻结预训练的模型的所有参数,并使用自然语言提示来查询语言模型(Brown et al.,2020)。例如,对于情感分析,可以将一个样本(例如,“Amazing movie!”)与提示“This movie is[MASK]”连接起来,并要求预训练的语言模型预测掩码标记为“good”和“bad”的概率,以决定样本的标签。提示根本不需要训练,并且只存储一个模型参数的副本。然而,与微调相比,离散提示(Shin等人,2020;Gao等人,2020)在许多情况下可能导致次优性能。
Prompt tuning。提示调整是一种只调整连续提示的想法。具体而言,Liu等人(2021);Lester等人(2021)建议在输入词嵌入的原始序列中添加可训练的连续嵌入(也称为连续提示)。只有持续提示在训练期间才会更新。虽然在许多任务中,提示调整优于提示(Liu等人,2021;Lester等人,2021;Zhong等人,2021),但当模型规模不大,特别是小于100亿个参数时,它仍然表现不佳(Lester等人(2021)。此外,如实验所示,与在几个硬序列标记任务(如提取式问答)上的微调相比,prompt tuning表现不佳(参见第4.2节)。

在本文中的主要贡献是一项新的经验发现,即适当优化的即时调整可以与在各种模型尺度和NLU任务中普遍进行的微调相媲美。与先前工作中的观察结果相比,论文的发现揭示了NLU快速调整的普遍性和潜力。

从技术上讲,P-tuning v2在概念上并不新颖。它可以被视为针对生成和知识探索而设计的深度提示调节(Li和Liang,2021;Qin和Eisner,2021)的优化和适应性实现。最显著的改进源于对预训练模型的每一层应用连续提示

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源启智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值