Automatic Prompt Optimization with “Gradient Descent” and Beam Search

最新推荐文章于 2025-09-10 14:55:44 发布

原创最新推荐文章于 2025-09-10 14:55:44 发布 · 2.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #语言模型

自然语言处理专栏收录该内容

29 篇文章

订阅专栏

文章提出了一种使用LLM自我评估和改进prompt的方法，通过类似梯度下降的策略，让LLM识别并修复prompt的问题。结合Beamsearch和Banditselection策略拓宽搜索空间，寻找最优prompt。实验显示这种方法在网络安全相关的分类问题上优于传统方法，并且容易过拟合，需要控制迭代次数。

在“自然语言域”使用类似梯度下降的方法优化prompt

整篇文章比较精髓的思想在于

利用LLM本身去寻找prompt的瑕疵。将语言模型的输出 $\hat{y}$ 与正确答案（label） $y$ 还有prompt $p$ 一起送入LLM，并通过类似“What is wrong with $p$ ? ”这样的问题让LLM自己找出prompt的问题所在，并将这次输出当作prompt在“自然语言域”的“梯度” $g$ 。
根据梯度 $g$ 让LLM自己对prompt做调整。把 $p, g$ 一起输入给LLM，并通过类似 “Use $g$ to fix $p$ ”的指令让LLM生成新的prompt。原文在此基础之上，还使用LLM多次paraphrase新的prompt从而“拓宽蒙特卡洛搜索空间”。
结合Beam search和Bandit selection在生成的新prompt里寻找最优解。每次做完前面所述的1.2.两步以后，就会产生许多候选prompt，文章使用beam search的方式，每次用bandit selection找到比较好的几个prompt，在此基础之上继续迭代，若干次后挑选其中最好的prompt。

Beam search过程

在这里插入图片描述
$B_i$ 为每个beam search步产生的prompt候选集， $C$ 是储存候选集的临时变量。（PS：这里的 $i$ 是不是该从0开始来着）

在每个搜索步中，先对当前步的候选集 $B_i$ 中的每个prompt做一次Expand操作，扩充候选集。Expand过后用Select算法进行筛选，找到最好的 $b$ 个保留到下一步的候选集里。最后从 $B_r$ 挑出最好的prompt。

Expand

在这里插入图片描述
第一步，从整个训练集 $\mathcal{D_{tr}}$ 中抽出一个小样本集合 $\mathcal{D_{mini}}$ ，。
第二步， $\mathcal{D_{mini}}$ 进行测试，把出错的样本收集起来，称为有错的样例集合 $e$ 。
第三步，将 $p, e$ 一起送入LLM让LLM挑错，得到 $g$ 。
第四步，将 $p, g, e$ 送入LLM让LLM优化 $p$ ，得到 $p^{'}$ 。
第五步，paraphase $p^{'}$ ，得到 $p^{''}$ 。
第六步， $p^{'}, p^{''}$ 一起送回去。

Select

本文把选择看作了一个“多臂老虎机”问题，可以参考这篇文章。简单说来，每个生成的新prompt就像老虎机的摇臂，可能会带来收益，但收益的分布是不确定的。多臂老虎机问题就是通过最少次“拉臂”操作找到带来收益最高的摇臂。放到这个prompt optimization问题里，拉臂操作就是以新的prompt作为输入做一次实验看效果，要做到用最少的实验找到最好的prompt。

本文描述了两种多臂老虎机问题的算法，UCB和Successive Rejects
在这里插入图片描述
均值越大，标准差越小，被选中的概率会越来越大。

简单理解就是打淘汰赛。

实验

在4个数据集上做了实验，都是偏向网络安全类的，而且都是分类问题。
Jailbreak：用户尝试绕过LLM的一些安全限制
Ethos：辨别英语仇恨言论
Liar：辨别英语fake news
Sarcasm：辨别阿拉伯语讽刺言论
在这里插入图片描述
看上去是吊打Monte-Carlo (MC)，Reinforcement Learning (RL)和AutoGPT。

在这里插入图片描述
Beam search有效果，比 $r = 1$ (No iteration)和 $b = 1$ (Greedy)要好。

又比了几个多臂老虎机算法，UCB和其变种UCB-E好。

学习曲线表明这玩意儿很容易过拟合，整个流程跑3遍差不多就到最优了。

一些优化结果展示：
在这里插入图片描述

3 条评论

不听不听兲念经 2023.06.13
博主你好我最近也读到了这篇文章，我有个疑惑，这篇文章优化prompt的基础是有错误的存在，那么既然有错误肯定会有正确答案进行对比就如label，但如果是这样的话，这个过程更像是模型训练的过程，如果给模型一个全新的任务没有label，他怎么去自动生成prompt呢？还是说这篇文章本来讲的就是基于有label任务的prompt的优化，而不是对新任务自动生成prompt
- 不听不听兲念经回复ShadyPi 2023.06.14
  他实验是怎么做的，Evaluation per Candidate 是不是对候选Prompt的查询次数他文中说 50个数据用来development 150个用来test，他难道先在训练集中随机找了个minibatch的数据对p0进行算法，然后对产生的候选prompt用50个数据进行评估，最终对Select出的Prompt 在150个数据上进行test？是这个流程吗
- ShadyPi回复不听不听兲念经 2023.06.13
  我也认为他这个算法目前还是只能在有监督的分类问题上跑出较好的结果。对于没有标记样本或者生成式任务的效果可能没那么好，这篇文章只展示了分类任务的效果可能就是因为生成式任务表现差了一点吧。（没自己亲手跑过这个算法，瞎猜一下[face]emoji:057.png[/face]