CONNECTING LARGE LANGUAGE MODELS WITH EVOLUTIONARY ALGORITHMS YIELDS POWERFUL PROMPT OPTIMIZERS

题目

将大型语言模型与进化算法连接起来,产生强大的提示优化器

在这里插入图片描述

论文地址:https://arxiv.org/abs/2309.08532
项目地址:https://github.com/beeevita/EvoPrompt.

摘要

    大型语言模型 (LLM) 在各种任务中表现出色,但它们依赖于精心设计的提示,而这些提示通常需要大量的人力。为了实现这一过程的自动化,在本文中,我们提出了一种新的离散提示优化框架,称为 EvoPrompt,它借用了进化算法 (EAs) 的思想,因为它们表现出良好的性能和快速收敛性。为了使 EA 能够处理离散提示,离散提示是需要连贯且人类可读的自然语言表达式,我们将 LLM 与 EA 连接起来。这种方法使我们能够同时利用 LLM 强大的语言处理能力和 EA 的高效优化性能。具体来说,EvoPrompt 摒弃任何梯度或参数,从提示群开始,根据进化运算符使用 LLM 迭代生成新的提示,从而根据开发集改进群体。我们在 3 个跨语言理解和生成任务的数据集上优化了闭源和开源 LLM(包括 GPT-5.9 和 Alpaca)的提示。EvoPrompt 的性能明显优于人工设计的提示和现有的自动提示生成方法25%和14%分别。 此外,EvoPrompt 表明,将 LLM 与 EA 连接起来会产生协同效应,这可能会激发对 LLM 和传统算法结合的进一步研究。

介绍

    大型语言模型 (LLM) 在多个自然语言处理 (NLP) 任务上表现出卓越的性能(佛罗里达州和奇里亚蒂,2020;Touvron 等人,2023;Ouyang 等人,2022;Zhang 等人,2022)。为了适应下游任务,传统的微调范式对于 LLM 来说成本太高。持续提示优化方法(Sun 等人,2022b; 一个;李和梁,2021;Liu 等人,2021b)通过在保持 LLM 参数冻结的同时,将软可训练提示嵌入到输入中来减轻巨大的成本。然而,这些方法仍然依赖于对 LLM 参数的访问,因为它们需要使用连续嵌入作为输入,这使得它们不足以通过 GPT-3 和 GPT-4 等块盒 API 访问 LLM(Brown 等人,2020;OpenAI,2023)。相反,只需向输入文本添加一条指令(也称为离散提示类型),即可引导 LLM 执行所需的任务,对计算成本的影响可以忽略不计,同时无需对 LLM 使用所有参数和梯度(Liu 等人,2023).

    尽管方便,但 LLM 对特定任务的性能会受到提示的显著影响(Liu 等人,2023;Zhu 等,2023)。因此,这种方法的关键挑战在于提示的设计,这已成为一种称为提示工程的关键技术(周 et al.,2022)。快速工程通常涉及精心设计的手动设计(Mishra 等人,2022 年; b)。鉴于不同语言模型和任务的提示差异很大,提示设计通常需要大量的人力和专业知识,以及主观且相对有限的准则(Liu 等人,2023;Zamfirescu-Pereira 等人,2023;Prasad 等人,2022).

    为了减轻离散提示设计的人工工作,以前的方法通常依赖于从 LLM 的输出层访问标记概率,而这可能并不总是可以通过 API 访问(邓等人,2022;Zhang 等人,2023 年)。最近的一些工作考虑列举不同的提示并选择最好的提示(周 et al.,2022;江等人,2020)或修改当前提示以改进它们(Guo et al.,2023;Prasad 等人,2022;Pryzant 等人,2023)。这种方法要么强调探索不同的提示,这可能会导致优柔寡断和浪费资源,要么专注于利用当前确定的良好提示,这可能会导致停滞并将搜索限制在局部最优。几种传统的无导数算法设计精良,在探索和利用之间取得了很好的平衡 (Conn 等人,2009;里奥斯 & 萨希尼迪斯,2013)。其中,进化算法 (EA)(Storn & Price,1997;Brest 等人,2006;张 & 桑德森,2009;Vesterstrom & Thomsen,2004)脱颖而出,因为它们简单高效,并且适用于离散提示优化。离散提示中的短语序列可以被视为典型 EA 中的基因序列,使它们与自然进化过程兼容。

    在本文中,我们借用了 EA 的思想,并提出了一个离散提示调整框架 EvoPrompt。虽然 EA 中的进化运算符通常是为序列设计的,但它们倾向于独立改变标记以生成新的候选解决方案。不幸的是,这种方法忽略了标记之间的联系,这对于保持离散提示的连贯性和可读性至关重要。因此,为离散提示设计进化运算符具有挑战性。利用 LLM 在自然语言处理方面的专业知识和 EA 的卓越优化能力,我们将这两种方法协同连接,其中 LLM 在进化运算符之后生成新的候选提示,而 EA 指导优化过程以保留最佳提示。具体来说,基于几个初始提示,我们利用 LLM 模仿 EA 中的进化运算符来生成新的提示候选者,并保留开发集上性能更好的提示。上述对更新群体的操作被迭代应用以提高质量。我们优化了两种不同 LLM(即 Alpaca(Taori 等人,2023)和 GPT-3.5(Brown 等人,2020)) 在各种神经语言理解和生成任务中,总共使用了 9 个数据集。与手动设计的提示和以前的自动提示生成方法相比,EvoPrompt 始终获得更好的提示。

    本文的主要贡献包括:

  • 我们提出了一种连接 LLM 和 EA 的新型自动离散提示优化框架,称为 EvoPrompt,它具有以下优点:1) 它不需要访问 LLM 的任何参数或梯度;2) 它在探索和开发之间取得了平衡,从而产生了更好的结果;3) 生成的提示是人类可读的。
  • 在 9 个数据集上进行的实验表明,与现有方法相比,EvoPrompt 的有效性提高了14%
  • 我们发布了 EvoPrompt 针对这些常见任务(如情感分类、主题分类、主观性分类、简化和总结)获取的最优提示。
  • 据我们所知,我们是第一个证明 LLM 能够实现由适当说明提供的进化算法的公司。我们希望这项工作能够激发将 LLM 和传统算法相结合的更广泛应用。

相关作品

LLM 中的提示

    提示是在专业任务中使用 LLM 的一种非常有效的方法;但是,性能在很大程度上受提示选择的影响。最近,自动提示优化得到了广泛的关注。基于提示的连续方法,也称为软提示调优,仅调优前缀或插入的标记的参数(李和梁,2021;Liu 等人,2021b; 一个;Zhang 等人,2021)或调整单词嵌入(Lester 等人,2021 年;钟等人,2021)与传统的微调范式相比,一直是成本较低的调味方法。尽管它们的性能有效,但这种范式的两个缺点不容忽视:1) 连续提示的优化需要黑盒 API 无法访问的 LLM 参数。2) 软提示往往缺乏可解释性(Khashabi 等人,2021;Lester 等人,2021b;Hambardzumyan 等人,2021;Mokady 等人,2021)。离散提示,只需添加几个离散标记,例如 “It was”(Schick & Schütze,2021)或特定于任务的描述性说明(例如“将评论分类为正面或负面”)为输入文本提供交互式界面,具有更好的可解释性,并在各种 NLP 任务中显示出有希望的性能(Liu 等人,2023).

离散提示

    已经提出了各种方法进行自动离散提示搜索和生成,这些方法通常基于梯度(Shin 等人,2020;Shi 等人,2022;Wallace 等人,2019)。基于强化学习 (RL) 的离散提示调整方法(邓等人,2022;Zhang 等人,2023 年)使用输出层设计奖励函数,并带来训练开销。

    最近,考虑到下游任务的不同提示的高差异性,提示生成方法侧重于通过列举和选择最佳提示来探索(主要通过重新采样来增强(周 et al.,2022;江等人,2020)). 基于提示修订的方法(Pryzant 等人,2023;Guo 等人,2023)收集 LLM 错误预测的案例并分析相应的根本原因以改进提示,提示更喜欢利用当前提示,很少探索。此外,此类方法仅限于具有标准答案的任务,不能直接应用于生成任务,因为此类任务的输出是灵活的,不能简单地归类为 “正确” 或 “错误”。基于提示编辑的方法(Zhang 等人,2023 年;Prasad 等人,2022)还强调开发,这可能会导致局部最优。我们提出的 EvoPrompt 配备了进化算法,在探索和开发之间取得了平衡,不需要任何参数或梯度。

自动离散提示优化

    当前的高级 LLM 通常通过黑盒 API 进行交互,而梯度和参数是无法访问的。进化算法 (EAs) 是无衍生算法,具有卓越的准确性和快速收敛性,受益于探索和利用之间的微妙平衡。因此,我们考虑将 EA 引入离散提示优化中。然而,为了生成新的候选解决方案,进化运算符通常会独立编辑当前解决方案中的元素,而不考虑它们之间的联系。这使得在离散提示上应用进化运算符具有挑战性,这需要连贯性和可读性。为了应对这一挑战,我们提出了一种协同方法,将 LLM 的自然语言处理专业知识与 EA 的优化功能联系起来,称为 EvoPrompt。具体来说,LLM 根据进化运算符生成新的候选提示,而 EA 则指导优化过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值