Genetic Prompt Search via Exploiting Language Model Probabilities

题目

利用语言模型概率的遗传提示搜索

在这里插入图片描述

论文地址:https://www.ijcai.org/proceedings/2023/0588.pdf
项目地址:https://github.com/zjjhit/gap3

摘要

    针对大规模预训练语言模型(PLMs)的即时调优已经显示出显著的潜力,尤其是在诸如fewshot学习的低资源场景中。此外,无导数优化(DFO)技术可以调整黑盒PLM的提示,以更好地适应下游任务。然而,应用现有的基于DFO的提示调整方法通常有前提条件,例如主干PLM需要提供额外的API,以便隐藏状态(和/或嵌入向量)可以作为连续提示注入其中,或者需要预先提供精心设计的(离散)手动提示,作为调整算法的初始状态。为了放弃这样的前提条件,并使基于DFO的提示调整为普遍使用做好准备,本文引入了一种新的遗传算法(GA ),该算法从空提示进化而来,并使用基于(少量)训练集从主干PLM导出的预测概率来指导提示突变期间的标记选择过程。在不同基准数据集上的实验结果表明,提出的无前提条件方法明显优于现有的需要前提条件的DFO式方法,包括黑盒调节、遗传提示搜索和无梯度教学提示搜索。

引言

    预训练语言模型(PLM)最近的成功正在彻底改变自然语言处理(NLP)领域[Devlin等人,2019;拉德福德等人,2019;刘等,2019;拉斐尔等人,2020;克拉克等人,2020]。与此同时,超大型PLM在少量学习场景中显示出巨大的潜力(例如[Brown等人,2020]),这使得它们作为通用的开箱即用工具越来越有吸引力。微调这样的大规模PLM在计算上仍然是昂贵的,即使是在少量的训练集上。

    但是一种叫做即时调优的新范式大大缓解了这一问题。提示调谐法[李,梁,2021;高等,2021;莱斯特等人,2021;Shin等人,2020;刘等,2022;刘等;Liu等人,2023]通过在主干PLM的输入(有时还有隐藏状态[Liu等人,2021a])中插入少量可调变量,使其预测概率偏向所需输出,同时在学习过程中保持主干模型的参数不变。这里的可调变量可以是连续向量(即软提示)或表面标记(离散提示),对于这些变量,获得有希望的值是基本目标,可以通过基于梯度的优化器来解决[Kingma和Ba,2015;Loshchilov和Hutter,2019]或无导数优化(DFO)技术[Kolda等人,2003;里奥斯和萨尼迪斯,2013年;于和根,2010]。

    为了使对这些超大型PLM的访问民主化,一种常见的做法是仅通过云API将它们作为后台服务交付Brown et al,2020;欧阳等人,2022年。这意味着通过DFO的快速调谐是一个有意义和重要的研究方向,其中主干的参数不需要暴露给调谐器。已有工作证明了应用进行快速调谐的可行性[徐等,2022;普拉萨德等人,2022;孙等,2022b孙等,2022a】。例如,Xu等人[2022]和Prasad等人[2022]引入了搜索试探法,通过释义、完形填空、删除、交换等编辑操作来提炼人类生成的(离散)提示。另一方面,孙等[2022 b;2022a]提出了所谓的“黑盒调节(BBT)”方法,用于基于协方差矩阵适应进化策略的连续即时优化[Hansen et al,2003]。

    然而,现有方法的局限性是显而易见的。离散提示搜索启发式搜索[徐等,2022;Prasad et al,2022]要求事先仔细设计可用的手动提示,这会产生额外的人工努力。此外,它们的性能也可能在很大程度上依赖于那些初始手动提示的适用性(参见4.3)。此外,这类方法通常需要辅助语言模型(LMs)来转述现有提示(如[Xu et al,2022]中使用的T511B [Raffel et al,2020]和[Prasad et al,2022]中使用的PEGASUS [Zhang et al,2020]),这涉及到额外的依赖关系。对于式的连续提示优化[孙等,2022bSun et al,2022a],它要求主干PLM提供额外的API,以便连续提示可以作为单词嵌入(或BBTv2的隐藏状态)注入[Sun et艾尔。2022a]),这在实践中可能并不总是可实现的。一种简单的替代方法是与GPT-3(Brown et al,2020)一起提出的情境学习(ICL),它只是将训练样本作为提示添加到输入中。但是,预先考虑太多或太长的例子可能会使最终输入超过主干模型的序列长度阈值,这限制了ICL的适用任务。此外,的表现通常缺乏竞争力,参见[孙等,2022b孙等,2022a徐等,2022;高等人,2021]以及我们的实验(参见4.3)。

    本文旨在放弃现有的基于DFO的提示调整方法所要求的上述先决条件,并提出一种新的遗传算法(GA) [Mitchell,1998],该算法从头开始生成离散提示。所提出的方法,命名为预测概率引导提示的通用算法(GAP3) 1,工作如下。

    首先,不连续的提示组块被认为是染色体,提示标记是基因。然后,从一个空的开始,GAP3通过染色体交叉和基因突变进化出提示。在每个突变步骤中,要么在随机染色体的随机位置插入新的屏蔽标记,要么屏蔽随机存在的基因。在此之后,掩码槽将由一个令牌填充,该令牌近似地最大化(少数镜头)训练集的基本事实标签的预测概率。该算法迭代预定数量的步骤,由不同染色体/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值